Technorati (现在被阻尼了, 可能你访问不了)的 Dorion Carroll在 2006 MySQL 用户会议上介绍了一些关于 Technorati 后台数据库架构的情况.
基本情况
目前处理着大约 10Tb 核心数据, 分布在大约 20 台机器上.通过复制, 多增加了 100Tb 数据, 分布在 200 台机器上. 每天增长的数据 1TB. 通过 SOA 的运用, 物理与逻辑的访问相隔离, 似乎消除了数据库的瓶颈. 值得一提的是, 该扩展过程始终是利用普通的硬件与开源软件来完成的. 毕竟 , Web 2.0 站点都不是烧钱的主. 从数据量来看,这绝对是一个相对比较大的 Web 2.0 应用.
Tag 是 Technorati 最为重要的数据元素. 爆炸性的 Tag 增长给 Technorati 带来了不小的挑战.
2005 年 1 月的时候, 只有两台数据库服务器, 一主一从. 到了 06 年一月份, 已经是一主一从, 6 台 MyISAM 从数据库用来对付查询, 3 台 MyISAM 用作异步计算.
一些核心的处理方法:
1) 根据实体(tags/posttags))进行分区
衡量数据访问方法,读和写的平衡.然后通过不同的维度进行分区.( Technorati 数据更新不会很多, 否则会成为数据库灾难)
2) 合理利用 InnoDB 与 MyISAM
InnoDB 用于数据完整性/写性能要求比较高的应用. MyISAM 适合进行 OLAP 运算. 物尽其用.
3) MySQL 复制
复制数据到从主数据库到辅数据库上,平衡分布查询与异步计算, 另外一个功能是提供冗余. 如图:

后记
拜读了一个藏袍的两篇大做(mixi.jp:使用开源软件搭建的可扩展SNS网站 / FeedBurner:基于MySQL和JAVA的可扩展Web应用) 心痒难当, 顺藤摸瓜, 发现也有文档提及 Technorati , 赶紧照样学习一下. 几篇文档读罢, MySQL 的 可扩展性让我刮目相看.
或许,应该把注意力留一点给 MySQL 了 .
–End.
全球 IT 公司 100 强
商业周刊 2006 年 IT 公司一百强出炉了. 这是 IT 公司的兵器谱.
宏达国际 (HIGH TECH COMPUTER) 这家台湾公司是增长最快公司与回报最高公司的双项第一。 在 收益增长最快 一项中排在第七位。厉害!
Google 是增长最快公司的第二名. 苹果公司则排在增长最快公司的第六。
以销售额来衡量,最大的 IT 公司是 HP 。Dell 第三, Nokia 第七, 微软则排在第八.
Amazon 是收益增长最快的公司第一名. Dell 第二 .
回报最高的公司软银名列第八.
Oracle 排在总榜单的 51 。有的 IT 巨头很是陌生.
大陆唯一入榜的 IT 公司是中国移动。 第 8 名。给的评论是:
It operates in a huge mainland market. But only 29% of the population has a cell—so China Mobile has lots of room to grow
依靠垄断总算弄出来一个巨无霸. 谁让咱大陆人多用的手机也多呢.
下载 PDF 文件.
–End.
关注世界杯, 我用 Joga.com Companion
这几天很多 Blogger 都很少更新, 都去看世界杯了吧!
隆重推荐一个 Firefox 扩展插件: Joga.com Companion .
![]()
这几天中央 V 的 一系列足球巨星主演的广告总能看到一个词: Joga Bonito . 搜索了半天才知道是葡萄牙语“漂亮足球/美丽足球”的意思. Joga.com 是很有名气的足球社区(Google 与 Nike 合作的站点?), 与 Firefox 一起发布了这个关于世界杯的扩展插件. 利用这个插件能追踪关于世界杯比赛的几乎所有信息. 很 Joga Bonito!
–End.
可用性级别与停机时间
一个网站 99.99% 的可用性是什么概念 ? 每年停机时间不能超过 53 分钟, 平均下来, 每个季度 13 分钟多一点点. 其他常说的几个级别见下图:

对于国内的网民来说, Google 的可用性应该是最低的. 从用户的角度上看, 恐怕连 95.0% 都达不到. 当然这不是 Google 的错.
IM 工具的可用性程度也不高, 比如 MSN Messenger 经常的掉线、消息发不出去;虽然用户也怨声载道, 但是没看到谁因为登陆不上 MSN Messenger 而转用别的 IM 的。个人估计微软的 MSN 对于 普通用户来说可用程度也就是 比 95.0% 好一点.
Web 2.0 的站点可用级别也比较低的. 可用级别最高的或许能达到 99.9%. Del.icio.us 去年就连续断电了几次, Bloglines 出来过多次水管子工,而豆瓣也出现过几次停机故障. 因为用户黏度在那里, Web 2.0 站点还真不用担心那么一会儿停机会丢失用户的问题, 除非真是拿到了花不完的风险投资,否则投入大笔费用来提高一个 “9” 的可用能力没有太大必要。
电子商务站点应该是很讲究可用性级别的, 联机事务处理能力要求相对较高, ‘1 秒钟几十万上下’, 提高可靠性的手段无非是高投入–通过大量软件硬件的冗余、更多的技术更为精湛的维护人员.
需要什么样的维护级别 ? 当然不是拍脑袋想出来的, 我想任何一个理性的公司都应该考虑投入产出比, 不考虑实际应用类型而盲目的追求高可用性不可取.
前几天和朋友聊天说起来,
A: "你上个季度系统的稳定性怎么样 ? "
B: "四个 9 阿"
A: "这么强?"
B: "嘿嘿, 虽然没啥防范措施, 凑巧没有宕机而已"
把这个当作笑话吧…
–EOF–
更新: 纳斯达克的可用性 99.98 ,基本上是微软软件构建的。eBay 可用性,披露出来的数据是 99.94%.