Tag Archives: Database

关于世界上的超大数据库

手边有一份 2005 Winter TopTen Award Winners的报告,包含了一些关于世界上排名前几位的 VLDB 的信息。VLDB,超大数据库,其实叫做”狂大数据库“倒是也很贴切。
如果不区分操作系统环境,Yahoo! 力拔数据仓库一项的头筹,单个数据库数据大小接近 100T 。采用的是 Oracle 数据库,部署在 Unix 上, 存储是 EMC 的设备。这是 2005年的数据,雅虎现在每日接近 40 亿 PV,这个数据仓库现在应该远超 100T 了吧。 电信巨头 AT&T 的数据仓库屈居亚军。Amazon 的两个数据仓库也不小,数据量多达 24773 GB,是用 Oracle RAC 实现的,部署在 Linux 操作系统上。

OLTP Top 10

我比较关心 OLTP 数据库的情况。下面这个图表是包括所有操作系统环境的 OLTP 数据库情况。前 10 名中只有两个采用了集群,而且都是集中式集群(Centralized/Cluster)。其余8个席位都采用了 SMP 架构,而且大多是集中式(Centralized)。分布式超大 OLTP 的成功案例看来并不多(只有 1 例,另外有一例是Federated)。让 Fenng 稍微有些惊讶的是 SQL Server 占了三个席位,数据量最大接近 8T 。整个表看来,数据库类别、所用的软件平台还真的比较平均。并非我想象的完全是 DB2/Oracle+Unix 的格局。
世界上 Top 10 OLTP 数据库

Unix 上 OLTP TOP 10

下表是使用 Unix 操作系统 OLTP TOP 10。好家伙,几乎清一色的 Oracle。DB2 不见踪影,只有 Sybase ASE 还算争气,占了一个席位。 9 个 Unix 平台上的 Oracle OLTP DB,只有两个使用了 RAC ,其他都是 Centralized/SMP。
到现在为止,都还没有看到互联网站点的身影。

继续阅读

Craigslist 的数据库架构

(插播一则新闻:竞拍这本《Don’t Make Me Think》,我出价 RMB 85,留言的不算–不会有恶意竞拍的吧? 要 Ping 过去才可以,失败一次,再来)
Craigslist 绝对是互联网的一个传奇公司。根据以前的一则报道:

每月超过 1000 万人使用该站服务,月浏览量超过 30 亿次,(Craigslist每月新增的帖子近 10 亿条??)网站的网页数量在以每年近百倍的速度增长。Craigslist 至今却只有 18 名员工(现在可能会多一些了)。

Tim O’reilly 采访了 Craigslist 的 Eric Scheide ,于是通过这篇 Database War Stories #5: craigslist 我们能了解一下 Craigslist 的数据库架构以及数据量信息。
数据库软件使用 MySQL 。为充分发挥 MySQL 的能力,数据库都使用 64 位 Linux 服务器, 14 块 本地磁盘(72*14=1T ?), 16G 内存。
不同的服务使用不同方式的数据库集群。

论坛

1 主(master) 1 从(slave)。Slave 大多用于备份. myIsam 表. 索引达到 17G。最大的表接近 4200 万行。

分类信息

1 主 12 从。 Slave 各有个的用途. 当前数据包括索引有 114 G , 最大表有 5600 万行(该表数据会定期归档)。 使用 myIsam。分类信息量有多大? “Craigslist每月新增的帖子近 10 亿条”,这句话似乎似乎有些夸张,Eric Scheide 说昨日就超过 330000 条数据,如果这样估计的话,每个月的新帖子信息大约在 1 亿多一些。

归档数据库

1 主 1 从. 放置所有超过 3 个月的帖子。与分类信息库结构相似但是更大, 数据有 238G, 最大表有 9600 万行。大量使用 Merge 表,便于管理。

搜索数据库

4 个 集群用了 16 台服务器。活动的帖子根据 地区/种类划分,并使用 myIsam 全文索引,每个只包含一个子集数据。该索引方案目前还能撑住,未来几年恐怕就不成了。

Authdb

1 主 1 从,很小。
目前 Craigslist 在 Alexa 上的排名是 30,上面的数据只是反映采访当时(April 28, 2006)的情况,毕竟,Craigslist 数据量还在每年 200% 的速度增长。
Craigslist 采用的数据解决方案从软硬件上来看还是低成本的。优秀的 MySQL 数据库管理员对于 Web 2.0 项目是一个关键因素。
EOF

代寻《Database In Depth》的技术审校

现在是广告时间。

电子工业出版社博文视点资讯有限公司诚征《Database In Depth》一书的技术审校(兼职)。
《Database In Depth》一书基本信息:
此书是出版名社 O’Reilly 的力作,Amazon 四星级图书,Software Development Magazine 和 UnixReview 鼎力推荐!
1) 官方网站链接:
《Database In Depth》在O’Reilly
《Database In Depth》在 Amazon
2) 作者:C.J. Date [Fenng 注:C.J. Data 的著作都不错]
3) 出版社:O’Reilly
4) 页数:228 页
基本要求如下:
1) 有高度的责任心,重承诺,守合约;
2) 熟悉关系数据库理论,技术把握力强;
3) 有较强的英语和中文功底,翻译用词精准,语句通顺易懂;
4) 时间相对较为充裕。
技术审校的工作职责如下:
1) 对译稿进行技术审校,以保证书稿翻译质量;
2) 对照原书,修正译稿中翻译错误和翻译不妥的地方;
3) 对不符合阅读和思考习惯以及不通顺的译文进行修润;
4) 对译文所作的修订内容作记录(博文视点会提供“修订记录”模板)
5) 书出版后,技术审校可在封面署名
应征者敬请联系:
邮件:xiaofei#broadview.com.cn (王晓菲) 把#换成@
电话:027-87690813转83(王晓菲)

博文找到了我,如果是三年前,我可能就接手了(虽然肯定有难度), 可惜现在我自己比较忙,也比较懒。
有兴趣的朋友可以直接通过上面的信息联系。别忘了最后送我一本样书 :)
EOF

Oracle SES 爬虫

百度认为企业搜索市场是鸡肋,可 Oracle 公司正在该领域投入重兵,磨刀霍霍。前几天,Oracle 公司率先使用自家产品 Oracle Secure Enterprise Search 打造自己的站内搜索:http://search.oracle.com
观察一下 Oracle Secure Enterprise Search(SES) 的爬虫:

"GET /OpenSource.htm HTTP/1.0" 200 7336 "-" \
"Oracle Secure Enterprise Search"
"GET /Publications.htm HTTP/1.0" 200 6959 "-" \
"Oracle Secure Enterprise Search"
"GET /OracleTech.htm HTTP/1.0" 200 14086 "-" \
"Oracle Secure Enterprise Search"
"GET /Others.htm HTTP/1.0" 200 5863 "-" \
"Oracle Secure Enterprise Search"
"GET /Others/Service.htm HTTP/1.0" 200 4268 "-" \
"Oracle Secure Enterprise Search"
"GET /Others/AboutMe.htm HTTP/1.0" 200 5186 "-" \
"Oracle Secure Enterprise Search"    

爬虫的名字就叫做 Oracle Secure Enterprise Search 。Web 日志上抓不到版本号。从 SES 服务器端的日志上可以得知目前的爬虫版本号为 10.1.6。
EOF