作者文章: Fenng

eBay 的存储一瞥

前年在帖子里介绍过 eBay 数据量超过 2PB,这么大的数据量管理和规划是需要一些艺术的,可惜网络上能得到的信息太少。最近又找到一篇关于 eBay 存储的介绍,这篇文章通过访问 William Crosby-Lundin (这位老兄现在已经跳槽到 SalesForce了)披露了一些数据,虽然该文距离现在有一年了,还是对我有不少参考价值。

eBay 存储团队当时 12 个人,管理 13 套存储,总容量 2PB 左右(不要刻舟求剑,现在超过 8 PB,2008-08-04) 了,8000 个左右光纤口,可用性 99.94%,工作量肯定不小。每周要起用 10TB 存储,这些存储有 75 个 LUN(也就说平均每个 LUN 135GB 左右,这个数据有些怪异)。连接到 SAN 环境的主机大约有 1000 台,数据库集群有 600 个左右,据我所知,这里的集群应该只是指 Data Guard。

这么多的数据库,I/O 开销肯定不小,如何消除存储热点呢? 该文只是笼统的说通过存储层与主机层的数据分片达到的。如果应用上 I/O 均衡做的好一些,可能存储热点问题不会成为瓶颈。

这个存储环境的部署应该有好几年了。所以最近一两年比较火爆的存储虚拟化与 Provisioning 技术都没有大规模起用。个人觉得 eBay 这么大的数据量, Provisioning 技术对于 eBay 的环境会是比较适合的。

有的时候,盲人摸象也是一种乐趣呀。

补充一下,超过 140 套集群。另外,提醒一下,这些数据是随着时间而变化的。切莫刻舟求剑。

EOF

Refer :

Our systems process in excess of 20 billion newly added records per day, 40TB being added every 24h, serving thousands of users and delivering hundreds of millions of queries per month in a true global 24×7 operation with distributed teams around the globe on systems over 8 PB in size (largest cluster >3PB), processing more than 30 PB of data per day.

FriendFeed 给了我们什么?

如果说 2007 年最佳小型 Web 2.0 应用是 Twitter,那么 2008 年最耀眼的 Web 2.0 应用很有可能就是 FriendFeed,虽然现在下断言还早,但是看看FriendFeed 团队的背景,清一色的 Google 帮……

个人觉得这个应用的”卡位”很好,试图在各个 Web 2.0 应用(尤其是 SNS 站点) 之上形成一个信息出口。让我想起了 Yahoo!Pipes

我从 FriendFeed 的测试阶段就开始使用,我的 FriendFeed 原来大约有几十个订阅者,不过在 正式发布后的这几天,我每天都要收到大量的订阅通知,很多朋友也都惊呼 FriendFeed “爆发“。

FriendFeed 给我带来了什么? 用了这个服务这么久,我在 FriendFeed 站点上停留的时间可以说是非常之短。每天会检查一下每日发到我邮件里的 “FriendFeed Activity”,说句实话,到现在我才发现,几乎没有从这些 “activity” 里面发现任何”新”的信息! 很奇怪吧? 虽然 FriendFeed 号称 “offers a unique way to discover and discuss information among friends”,方法是提供了,但是并不能让我有效的发现信息热点。面对每天大量来自朋友的更新信息,用户总不能每天 “披沙简金” 吧?

另外一个比较严重的问题是大量近似的冗余信息让人不厌其烦,缺乏必要的过滤方法也容易让人对 “discover“ 更有价值的信息失去兴趣。 (BTW,Google Reader 上这个问题也很严重) 。当然,朋友们最为关注的信息很可能也是我最感兴趣的信息, 但是希望能有一个好的形式为用户展现出来,这一点我倒是比较欣赏 Techmeme 的模式。

考虑到 FriendFeed 测试阶段的改进频率,相信会逐渐解决这些问题的,毕竟这是出身 Google 的金牌团队啊。

EOF

有感于 Yupoo! 被亮”黄牌”

看到 Yupoo!亮“黄牌”。Yupoo!的兄弟们估计也哭笑不得,算是被免费公关了一回。

在国内办个网站真不容易,只要是用户产生内容的,基本上都要额外的耗费很多精力去和那些人打交道,有个风吹草动的就可能被请去”喝茶”。我总觉得,在国内 Web 2.0 的创业其实比国外要难多了。第一个横在眼前的问题就是电信网通之间的鸿沟,要多追加不少投资,才能针对不同地域的用户提供一致的用户体验。第二个难题就是必须要和相关监管部门打交道,不得不花费不少心思。很多技术创业型的公司在这一块经常要吃亏。

当然,既然选择加入这个游戏,基本的游戏规则还是应该遵守的,如果纵容用户恶意利用资源,很容易就会弄出来”破窗效应“。所以,在运营上绝对不能短视,利用一些突发事件的噱头是能引来短期流量,但是无疑会改变网站的长期形象。在这方面 Yupoo! 一直挺有操守的,只是 “每天网友上传约10万张照片” ,要想 “先审后发” 的确难上加难。还没有听说在这个方面有什么”技术类”的解决方案。这是 Yupoo!的困境,怕也是很多类似网站需要面对的一个问题。

顺便说一下,“每天网友上传约10万张照片”,按照这样的计算一月 300 万张。加上不同的格式,可真的需要海量的存储空间啊。

EOF

Oracle 10g PatchSet 10.2.0.4

Laurent Schneider 的 Blog 看到信息,Oracle 10gR2 的第三个 PatchSet 10.2.0.4 已经出来了。虽然还没有正式宣布,但是在 Metalink 上已经能够看到 Linux 平台的了。PatchSet 号码为:6810189 。

现在 Oracle 的 PatchSet 出来的顺序基本上还是 Linux 是第一个,也反应了某种趋势。若干年前都是 Solaris 平台 上最早出来的,现在都变成 Linux 了,操作系统的流行变迁可见一斑。原来传言说 2007 年年底会发布的 ,还是拖到了现在才看到,难道 Oracle 的开发力量都投入 11g 上面去了?

有意思的是,10.2.0.4 Patch Set – List of Bug Fixes by Problem Type 这个列表下仍然写着 “Please note that 10.2.0.4 has not been released on any platform , and does not have release dates available” 。可见 Oracle 内部对文档的更新也是比较乱的。

期待这个版本在修复众多 Bug 的同时不要引入新的 Bug 了,Oracle 10g 在稳定性上还是不能让人放心,淘宝的兄弟们最近就因为 ASM 的 Bug 而折腾了一回。。11g 会好一些么?

对于 DBA ,尤其是 Oracle DBA 来说,厂商发布一个新的 PatchSet 要比发布一个新的版本来的更为实惠一些,因为前者面向解决现有存在的 Bug 问题。新的版本只会引入更多的问题。

EOF