Paypal 的数据仓库管窥

一直以来，Paypal 的技术信息都很封闭的，很少能看到披露后台关于信息架构的东西。

Paypal 当前的数据仓库用的是 NCR Teradata ，32 个节点，50 TB 的数据，耗时三年打造。而整个公司投入在 BI 范围上的资金占据全部 IT 投入的 60%。

之前 Paypal 用的是 Oracle 数据仓库的解决方案，旧的 Oracle 数据仓库环境其实类似生产环境 Schema 数据的镜像。从 Oracle 到 Teradata ，不是简单的迁移，而是完全重构了数据模型，对数据重新清洗并提高数据质量。

因为欧美是依赖信用卡的消费习惯，所以 Paypal 面对的信用卡消费欺诈还是很严重的，一度高达 0.25% 的资损(印象中好像有段时间来自俄罗斯和东欧的欺诈特别多)，这可能也是 Paypal 在数据仓库/BI 上投入重金的一个原因(此外还收购了 Fraud Sciences 公司来减少这方面的风险)。

除了有效提供损益报告，Paypal 的数据仓库还必须即时有效的提供的一个指标叫做 “Funny Mix”，代表信用卡资金交易帐务平衡指标与 ACH(自动化清算所，Automated Clearing House) 帐务平衡。

作为对比 eBay 数据仓库环境每天新进来的数据就有 40TB(和Yahoo! 的DW不相上下)，这样的数据量，处理起来的难度还是有一点点的，据说原来技术人员 90% 的时间要花费在数据清洗上，现在也开始用 Teradata 大集中式数据仓库的模式了。

尽管收集 Paypal 的信息非常不容易，但也希望能挖掘出点有意思的东西来。

–EOF–

6 thoughts on “Paypal 的数据仓库管窥”

Jay 2008/08/02 at 10:39 AM

相当地一头雾水啊~

Reply ↓

https://me.yahoo.com/shouzhaoliu#11f8d 2008/08/02 at 3:24 PM

TB离偶有点远

Reply ↓

syfins 2008/08/03 at 8:16 PM

不太对吧
32个什么节点啊?
现在好像没哪个节点是1T多的啊

Reply ↓

Fenng 2008/08/03 at 8:41 PM

@syfins
32 个 Teradata 节点
要不你是 Paypal 美国的人，要不以为我说的为参考吧！

Reply ↓

caimf001 2010/01/14 at 10:41 AM

3中国建设银行18+1节点的（TERADATA 5500H） 100T以上，在中国，单个节点达到1T还是很多的，我接触过的大数据量的数据仓库，单张表就可以达到1TB以上。

Reply ↓

Fenng 2010/01/14 at 10:47 AM

单纯拼数据，肯定还有不少冰山之下没被批露的信息。
所以，比大价值不大。
银行和电信相信都有很多大家伙

Reply ↓

创业感悟，以及关于互联网的记忆碎片

Paypal 的数据仓库管窥

6 thoughts on “Paypal 的数据仓库管窥”

Leave a Reply Cancel reply

6 thoughts on “Paypal 的 数据仓库管窥”

Leave a Reply Cancel reply

6 thoughts on “Paypal 的数据仓库管窥”