Tag Archives: Storage

HDS 发布 Universal Storage Platform V (USP V)

HDS 在5月中旬正式发布了高端存储新产品: Universal Storage Platform V (USP V)。这个产品应该只是 TagmaStore USP 的升级版,其定位是和 EMC 的高端存储 DMX-3 进行竞争,目前市场上也只有这两家在高端上有一拼,IBM 那用两个 p5 570 拼起来的盒子很多人都信不过。

看官方介绍,说 USP V 在性能上有很大提升,iops 达到了 350 万(USP 是 250 万),这样的数字怕是不能说明什么,毕竟是最理想情况出来的数据。而从规格列表上看,Cache 最大容量仍然只是 256GB,而且,没有特别介绍 Cache 算法有什么改进。估计总体性能和 USP 相比也仅仅是有所提升,肯定不能达到 “飞跃” 的层次。

存储能力,相对与以前的版本的确是很惊人了,最大 247PB (内部最大 332T),这倒是挺唬人的,估计也只能是用来唬人。在连通性方面也有所增强,这个在意料之中。当然,还是 Crossbar 交换式架构,这是第四代了。

软件方面新加了一些关键特性,Thin Provisioning,好像都翻译成”精简自动配置”, 面向存储虚拟化。这个功能简单的理解似乎就是能虚拟出来一个大的存储池(在实际磁盘并不足的情况下),然后对存储空间按需分配,以后用多少添加多少实际的硬盘。某种情况下能减少总体拥有成本(TCO)。这个功能 Netapp 和 EMC 的 NAS 产品应该据有的。我怀疑在高端存储上未必能有多大作为。另外, HDS 的监控软件仍然不够好,启用这样功能的用户,监控上可要费心思了。

HDS USP V 真正的支持 4GB FC ,包括各个环节。 这一点要比 EMC DMX-3 先进,DMX-3 只是部分支持。

下面这个图是 USP V 的规格列表(PDF,版权是 HDS 的):
USP_V_Spec.png

Internet Archive 的海量存储浅析

Internet Archive(IA) 这个站点大家应该都不陌生。IA 旨在建立所有互联网站点的”档案库”,如果说 Google 是互联网的数据库的话,那么 IA 就是互联网的数据仓库了,定期对每个 Web 页面保存快照,数据量之大可想而知。
先看看 IA 每天需要面对的处理能力:
存储超过 850 亿个 Web 页面;
每天大约 600 万次的下载;
Wayback Machine 收到大约 1000 万次点击,每秒钟要处理 100-200 个点击;
每天10万次左右通过 URL 查找;
每天 400 万次返回请求;
存储的内容包括本文、音频、视频…等各种 Web 可见的格式。
显然 IA 需要的是一种前所未有的存储解决解决方案–廉价、可靠、低功耗…总之用起来要省钱。IA 的志愿者不得不考虑自己动手建立符合他们需要的存储系统,这下子可不简单,2004 年,第一个 100GB 容量的近线存储投入使用 。IA 的志愿者之一 Saikley 干脆抽身而出成立了 Capricorn Technologies 公司,专为类似组织提供存储解决方案。前面提到的 100TB 容量的产品即为该公司 GB 系列的产品。现在 IA 已经采用 PS(PowerStore) 系列的 PetaBox,是量身定做的,装机容量 1.5T,目前容量已经超过 3PB(怕是远远超过 3PB 了)。PS 系列产品每节点原始容量可以达到 3T,使用日立 Deskstar 硬盘,仅仅占 1U 的机柜空间。IA 也在站点上介绍了定制的这台 PetaBox 的一些规格要求以及参数
Capricorn Technologies PS 系列旗舰产品
PetaBox 也是 Linux 在企业级应用取得成功的一个范例。
PetaBox 存储产品给存储界带来了不小的震撼。每 GB 的成本仅仅是 2 美元。这还是 2005 年的价格,现在应该更便宜了。搜索了一下,这家公司目前还没有进入中国。
PetaBox 系统通过一个集中式的 PXE 启动服务器运行在 Debian 或是 Fedora Linux ,通过 Nagios 进行整个环境的监控。 管理成本也并不高–每 PB 一个人。
EOF

eBay 的应用服务器规模

前面我在《eBay 的数据量》中介绍了一些道听途说来的关于互联网巨头 eBay 服务器架构的信息,不过还缺了一点关键数据。
在 Oracle 站点上的一篇题为 The eBay Global Platform and Oracle 10g JDBC 的白皮书,有能看到一些数据。
在 2004 年的时候,eBay 的应用服务器采用了 IBM WebSphere,部署在 WinNT 上,硬件是 Intel 双 CPU 奔腾服务器。服务器数量是 2400 台。在《eBay 的数据量》中我们知道,eBay 的是集中式处理 Log 的,每天会有 2T 的 Log 数据产生,现在只会更多。这些应用服务器分成不同的组,通过一个统一的 DAL(database access layer) 逻辑层访问 135 个数据库节点。
这篇白皮书已经发布了两年,相信在这两年的时间里,服务器规模又会扩大了许多。
eBay 的 SOA 架构 V3 示意图如下:

继续阅读

Craigslist 的数据库架构

(插播一则新闻:竞拍这本《Don’t Make Me Think》,我出价 RMB 85,留言的不算–不会有恶意竞拍的吧? 要 Ping 过去才可以,失败一次,再来)
Craigslist 绝对是互联网的一个传奇公司。根据以前的一则报道:

每月超过 1000 万人使用该站服务,月浏览量超过 30 亿次,(Craigslist每月新增的帖子近 10 亿条??)网站的网页数量在以每年近百倍的速度增长。Craigslist 至今却只有 18 名员工(现在可能会多一些了)。

Tim O’reilly 采访了 Craigslist 的 Eric Scheide ,于是通过这篇 Database War Stories #5: craigslist 我们能了解一下 Craigslist 的数据库架构以及数据量信息。
数据库软件使用 MySQL 。为充分发挥 MySQL 的能力,数据库都使用 64 位 Linux 服务器, 14 块 本地磁盘(72*14=1T ?), 16G 内存。
不同的服务使用不同方式的数据库集群。

论坛

1 主(master) 1 从(slave)。Slave 大多用于备份. myIsam 表. 索引达到 17G。最大的表接近 4200 万行。

分类信息

1 主 12 从。 Slave 各有个的用途. 当前数据包括索引有 114 G , 最大表有 5600 万行(该表数据会定期归档)。 使用 myIsam。分类信息量有多大? “Craigslist每月新增的帖子近 10 亿条”,这句话似乎似乎有些夸张,Eric Scheide 说昨日就超过 330000 条数据,如果这样估计的话,每个月的新帖子信息大约在 1 亿多一些。

归档数据库

1 主 1 从. 放置所有超过 3 个月的帖子。与分类信息库结构相似但是更大, 数据有 238G, 最大表有 9600 万行。大量使用 Merge 表,便于管理。

搜索数据库

4 个 集群用了 16 台服务器。活动的帖子根据 地区/种类划分,并使用 myIsam 全文索引,每个只包含一个子集数据。该索引方案目前还能撑住,未来几年恐怕就不成了。

Authdb

1 主 1 从,很小。
目前 Craigslist 在 Alexa 上的排名是 30,上面的数据只是反映采访当时(April 28, 2006)的情况,毕竟,Craigslist 数据量还在每年 200% 的速度增长。
Craigslist 采用的数据解决方案从软硬件上来看还是低成本的。优秀的 MySQL 数据库管理员对于 Web 2.0 项目是一个关键因素。
EOF