Internet Archive 的海量存储浅析

Internet Archive(IA) 这个站点大家应该都不陌生。IA 旨在建立所有互联网站点的”档案库”,如果说 Google 是互联网的数据库的话,那么 IA 就是互联网的数据仓库了,定期对每个 Web 页面保存快照,数据量之大可想而知。
先看看 IA 每天需要面对的处理能力:
存储超过 850 亿个 Web 页面;
每天大约 600 万次的下载;
Wayback Machine 收到大约 1000 万次点击,每秒钟要处理 100-200 个点击;
每天10万次左右通过 URL 查找;
每天 400 万次返回请求;
存储的内容包括本文、音频、视频…等各种 Web 可见的格式。
显然 IA 需要的是一种前所未有的存储解决解决方案–廉价、可靠、低功耗…总之用起来要省钱。IA 的志愿者不得不考虑自己动手建立符合他们需要的存储系统,这下子可不简单,2004 年,第一个 100GB 容量的近线存储投入使用 。IA 的志愿者之一 Saikley 干脆抽身而出成立了 Capricorn Technologies 公司,专为类似组织提供存储解决方案。前面提到的 100TB 容量的产品即为该公司 GB 系列的产品。现在 IA 已经采用 PS(PowerStore) 系列的 PetaBox,是量身定做的,装机容量 1.5T,目前容量已经超过 3PB(怕是远远超过 3PB 了)。PS 系列产品每节点原始容量可以达到 3T,使用日立 Deskstar 硬盘,仅仅占 1U 的机柜空间。IA 也在站点上介绍了定制的这台 PetaBox 的一些规格要求以及参数
Capricorn Technologies PS 系列旗舰产品
PetaBox 也是 Linux 在企业级应用取得成功的一个范例。
PetaBox 存储产品给存储界带来了不小的震撼。每 GB 的成本仅仅是 2 美元。这还是 2005 年的价格,现在应该更便宜了。搜索了一下,这家公司目前还没有进入中国。
PetaBox 系统通过一个集中式的 PXE 启动服务器运行在 Debian 或是 Fedora Linux ,通过 Nagios 进行整个环境的监控。 管理成本也并不高–每 PB 一个人。
EOF

从 Qnxo 到 Quest CodeGen Utility

早晨收到 Steven Feuerstein (Oracle PL/SQL Guru)署名的一封邮件。介绍了他的得意之作 Qnxo 工具的一些变化。
Steven 开发了 Qnxo 工具 ,这个工具名字的四个字母取自 Quality in, Excellence Out,是一款旨在提高 PL/SQL 代码质量与开发速度的工具。去年 Quest 公司收购他的 Qnxo ,重新命名为 Quest CodeGen Utility (QCGU) ,并将其免费,对,Freeware! 预计将在今年的上半年推出 1.5 版,届时将通过 ToadWorld.com 发布。目前是 1.4 版,可以在 QCGU.net 下载,并可以获得正式 License (原来的 Qnxo 并不是免费的,只是提供了 30 天试用期)
我曾经试用过 Qnxo, 对于 Oracle 开发人员来说,通过该软件的确能够学到很多良好 PL/SQL 编程习惯。这样好产品,现在还变成免费的,值得尝试用用。
EOF
题外话:Steven Feuerstein 期待与美国现任总统小布什会面的事情还没有结果。

Dreamhost 又掉链子了

Dreamhost 掉链子其实不是一次两次了,所以一般的服务不能访问也就是忍了,今天一口气停了 6 个小时,有些过份。
最开始看 DreamhostStatus.com 上说这是一次 Planned Power Outage,将影响三个小时。后来又说 核心路由器受到影响,又影响了3个小时。Dreamhost 维护的时候还总是喜欢挑选那边的凌晨,恰恰是我们这边的白天。
SiteUpTime 的监控是有 6 小时 43 分不能访问本站。考虑到15分钟间隔的监控频率,实际的宕机时间或许更长。这是监控到的站点可用性数据:

Since: August 11, 2006
Outages: 20
Total Uptime: 99.543%

只要可靠性能达到 99%,我忍。Dreamhost 的性价比仍然是我认为比较好的,何况前几天刚给我解决掉下一年的托管费呢…
小声吆喝一下,要想上 Dreamhost 的贼船,优惠代码: FENNG
EOF
另外,Blog 的 TrackBack 打开了

选择低科技生活

选择 Google,选择黑莓,选择 iPod, 选择笔记本,选择 MSN Messenger,选择 Skype,选择 Outlook,选择 Nokia,选择 Vista,选择 Blog,选择电子邮件,选择垃圾邮件,选择网络,选择他妈的垃圾生活…
这几句话是模仿猜火车的开头台词,再读了一次三联生活周刊的这个专题《高科技中的低科技风》之后,觉得现在的这种所谓的高科技生活也是听让人深恶痛绝的。
摘录几段话:

“拜技术教”一旦走火入魔,会让人心生恐惧,所以有人干脆退回到旧的生活方式里去,原来那么多旧技术都是可留恋的。胶片、留声机、机械表,它们的质感、坚固和手工感都是数字替代品所没有的

高科技的本意是提高工作效率,但讽刺的是,IT精英们往往最容易被周围环境所干扰。一些我们认为能大大提高工作效率的东西,最终往往证明最浪费时间。

简化复杂的数字生活,提倡技术的”极简主义”原则,重新启用低科技,在如今的极客圈内颇为流行

一个简单的问题是,我们真的需要这么多高科技吗?你真的需要随时随地带着手机,唯恐人们不能找到吗?为什么手机就不能只是手机,而非要在手机上听音乐,拍照片,看电影呢?我们真的需要事事求助于 Google、WIKI 吗? 暂时逃离鼠标和键盘,真的有那么困难吗?

真的挺困难。
唉,明天又要上班了。选择他妈的上班。
EOF