Paypal 的 数据仓库管窥

一直以来,Paypal 的技术信息都很封闭的,很少能看到披露后台关于信息架构的东西。

Paypal 当前的数据仓库用的是 NCR Teradata ,32 个节点,50 TB 的数据,耗时三年打造。而整个公司投入在 BI 范围上的资金占据全部 IT 投入的 60%。

之前 Paypal 用的是 Oracle 数据仓库的解决方案,旧的 Oracle 数据仓库环境其实类似生产环境 Schema 数据的镜像。从 Oracle 到 Teradata ,不是简单的迁移,而是完全重构了数据模型,对数据重新清洗并提高数据质量。

因为欧美是依赖信用卡的消费习惯,所以 Paypal 面对的信用卡消费欺诈还是很严重的,一度高达 0.25% 的资损(印象中好像有段时间来自俄罗斯和东欧的欺诈特别多),这可能也是 Paypal 在数据仓库/BI 上投入重金的一个原因(此外还收购Fraud Sciences 公司来减少这方面的风险)。

除了有效提供损益报告,Paypal 的数据仓库还必须即时有效的提供的一个指标叫做 “Funny Mix”,代表信用卡资金交易帐务平衡指标与 ACH(自动化清算所,Automated Clearing House) 帐务平衡。

作为对比 eBay 数据仓库环境每天新进来的数据就有 40TB(和Yahoo! 的DW不相上下),这样的数据量,处理起来的难度还是有一点点的,据说原来技术人员 90% 的时间要花费在数据清洗上,现在也开始用 Teradata 大集中式数据仓库的模式了。

尽管收集 Paypal 的信息非常不容易,但也希望能挖掘出点有意思的东西来。

EOF

CAP:高可用架构的另一基石

在上周六的 QClub 上,BASE 成为了一个热点话题,其实除了这个 BASE 之外,还有个 CAP 理论也是值得关注一下的。这个概念也来自 Inktomi 公司(被雅虎收购后已是明日黄花)的 Eric A. Brewer ,应该说他 10 年前的那篇 Lessons from Internet Services: ACID vs. BASE 是互联网技术最为重要的一篇文章了。

C: Consistency 一致性 
A: Availability 可用性
P: Tolerance of network Partition 分区容忍性(有翻译为耐受性的,个人觉得不妥)

CAP.png

熊掌与鱼不可兼得,三个目标不能同时满足。如果对”一致性”要求高,且必需要做到”分区”,那么就要牺牲可用性;而对大型网站,可用性与分区容忍性优先级要高于数据一致性,一般会尽量朝着 A、P 的方向设计,然后通过其它手段保证对于一致性的商务需求。

CAP 不是什么高深的东西,应该说 CAP 只是一个经验理论,切不可钻牛角尖,号称自己做的东西能打破 CAP 理论,那只是无意义的事情罢了。

如果知道 ACID(酸) 、BASE(碱) 在词典中的含义,那么这个 CAP 的辞典含义也很有趣。

EOF

最后推荐阅读一下这篇:可伸缩性原则

QClub 杭州站成功在支付宝举行

我开始还有点担心到底多少人会来参加这次 QClub,毕竟这几天杭州太热了,不过大家的热情比天气还热 :) 甚至还有从上海、宁波等地赶来的朋友,如果今天的技术活动能让各位感到不虚此行则是我们莫大的荣幸,非常感谢各位朋友的光临!

组织这样的会议,我也不是很有经验,希望没有怠慢了大家。有点小纰漏:最后要不是同事提醒,为大家准备的 T 恤居然差点忘了发送,有几位朋友走的快,可能没有拿到 T 恤,希望下次活动的时候给大家补上。

会议内容,回头 InfoQ 泰稳那边会有视频和文字的技术内容,我这里先发点会议的照片(拍的好的可能是同事拍的,拍的手法很差的基本是我按的快门,如有不合适的地方请通知我,完整的照片集等下周整理一下放上来)。

QClub合影大图

上图:会议结束时合影

程立的无奈一笑

上图:泰稳拿了一只录音笔,让程立别在身上;同事拿来一只录音笔,程立也别在衣服上;接着又要拿无线麦克风,发现身上挂的东西太多了 :)

分享进行中

演讲内容很精彩

上图:聚精会神。可见程立的技术分享之精彩。

支付宝胡喜 vs. 淘宝毕玄(林昊)

上图:左边:支付宝架构师胡喜,右:淘宝架构师林昊(BlueDavy),有点遗憾的是没让他给大家分享点东西:)

QClub 花絮

上图:谈到妙处,开怀一笑。

InfoQ宣传画

支付宝的学习发展规划

上图:这两个朋友对支付宝的学习发展计划居然很感兴趣 :) 今天活动的会议室平时支付宝用来做新员工培训的,所以墙壁上有很多招贴画、手写的海报什么的。

更多照片看我的 Flickr 或者 Yupoo 相册

EOF

Alipay + QClub , 期待杭州侠客光临

本月 26 日,也就是明天,QClub:当SOA遭遇现实 将如期在支付宝举行。

除了报名参加的杭州本地的众多技术精英,阿里集团各家子公司也都有人参加,淘宝、阿里软件、阿里妈妈都会有资深架构师到现场来。相信这回是一场精彩的思维碰撞,期待。

特邀嘉宾:支付宝首席架构师 程立(花名:鲁肃)

程立,支付宝(中国)网络技术有限公司。2004年开始参与淘宝网与支付宝系统的建设,2005年起进入支付宝,一直从事于互联网电子支付系统的研发工作。现任支付宝首席架构师,专注于电子支付系统的分布式服务架构与开放架构。

一说起 SOA 可能很多人会觉得比较”空”,这也是我们举办会议的目的之一,”来点实在的技术信息” 是这次活动的一个宗旨。

会议地点

文三路、万塘路交汇处,华星时代广场 5 楼。大厅届时会有人指路

友情提示

为便于交流,请尽量携带名片 :) 

EOF

此文作者:, 位于 Arch 分类 标签: , , on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.