Tailrank 网站架构

每天数以千万计的 Blog 内容中，实时的热点是什么? Tailrank 这个 Web 2.0 Startup 致力于回答这个问题。

专门爆料网站架构的 Todd Hoff 对 Kevin Burton 进行了采访。于是我们能了解一下 Tailrank 架构的一些信息。每小时索引 2400 万的 Blog 与 Feed，内容处理能力为 160-200Mbps，IO 写入大约在10-15MBps。每个月要处理 52T 之多的原始数据。Tailrank 所用的爬虫现在已经成为一个独立产品：spinn3r。

服务器硬件

目前大约 15 台服务器，CPU 是 64 位的 Opteron。每台主机上挂两个 SATA 盘，做 RAID 0。据我所知，国内很多 Web 2.0 公司也用的是类似的方式，SATA 盘容量达，低廉价格，堪称不二之选。操作系统用的是 Debian Linux 。Web 服务器用 Apache 2.0，Squid 做反向代理服务器。

数据库

Tailrank 用 MySQL 数据库，联邦数据库形式。存储引擎用 InnoDB，数据量 500GB。Kevin Burton 也指出了 MySQL 5 在修了一些多核模式下互斥锁的问题(This Bug?)。到数据库的JDBC 驱动连接池用 lbpool 做负载均衡。MySQL Slave 或者 Master的复制用 MySQLSlaveSync 来轻松完成。不过即使这样，还要花费 20％的时间来折腾 DB。

其他开放的软件

任何一套系统都离不开合适的 Profiling 工具，Tailrank 也不利外，针对 Java 程序的 Benchmark 用 Benchmark4j。Log 工具用 Log5j(不是 Log4j)。Tailrank 所用的大部分工具都是开放的。

Tailrank 的一个比较大的竞争对手是 Techmeme，虽然二者暂时看面向内容的侧重点有所不同。其实，最大的对手还是自己，当需要挖掘的信息量越来越大，如果精准并及时的呈现给用户内容的成本会越来越高。从现在来看，Tailrank 离预期目标还差的很远。期待罗马早日建成。

–EOF–

5 thoughts on “Tailrank 网站架构”

木匠 2007/11/21 at 12:26 AM

什么是联邦数据库形式? 好比 MS-SQL Sever 的 Cluster 数据库? 或者是高速的分布式数据库?
总之, 是Share nothing …?

Reply ↓

ywdblog 2007/11/21 at 11:32 AM

大牛能不能写点mysql的文章

Reply ↓

Fenng 2007/11/21 at 12:48 PM

@ywdblog,
MySQL 我也不懂

Reply ↓

gray 2007/12/15 at 3:28 PM

mysql存储引擎用 InnoDB
应该是不能用MySQLSlaveSync来做replication吧?

Reply ↓

sail 2008/07/11 at 3:50 PM

架构上的,讲的越细越好.
数据量 500GB,如何存储呢?
分布式?

Reply ↓

记录一些关于互联网的信息碎片

Tailrank 网站架构

服务器硬件

数据库

其他开放的软件

5 thoughts on “Tailrank 网站架构”

Leave a Reply Cancel reply