Tag Archives: MySQL

Facebook 针对 MySQL 开源 Online Schema Change 代码

有过 MySQL 使用经验的人应该知道，MySQL 要想在线修改个 Schema 结构是个麻烦事，规模不大的表增加个索引造成的锁也可能导致整个 Web 应用宕机。这一点没办法和 Oracle RDBMS 、DB2 等商业数据库相比，甚至 PostgreSQL 也具备联机 ~~DML~~ DDL 的能力。我在过去写过一系列并不成熟的《MySQL 大企业级应用可行性分析》文章中，也很是担忧这个问题。有些公司想迁移到 MySQL ，也因此而只能采取保守的做法。

不过现在这个缺陷临近被彻底修复。Facebook 的数据库技术团队将 Online Schema Change （OSC) 的代码开源，并且撰文进行了详尽的阐述。这是个很大的技术革新，Facebook 数千台 MySQL 服务器在过去增加个索引需要几个月的滚动升级，现在只需要几天即可。

MySQL 5.1 的 InnoDB 引擎具备 Fast Index Creation 的功能，在创建索引的时候无需复制整个表的内容，但是对于一定规模的大表增加索引，仍然需要花费大量时间，对于在线应用来说，仍然不可忍受。而 Facebook 的 OSC 则进一步进行了改进。对于 MySQL DBA 来说，这是个福音。感谢 Facebook 的员工 Vamsi Ponnekanti 的工作。如果要我说，年度 MySQL DBA 应该授予给他。当然，Online Schema Change 的部分代码从 Shlomi Noach 的 Openark Kit 中派生，建议 Shlomi Noach 一同获奖…

对于 MySQL 来说，我认为这是个里程碑式的时刻，无论 Oracle 将给与 MySQL 多大的投入，其它公司已经主动拿过接力棒。Facebook 技术团队再次立功了！

–EOF–

Update: Facebook 工程师在帖子里说了”Note that the above operations can be done within the storage engine itself, or using an external (PHP) script.” 要知道，这并非只是一个 PHP 脚本的实现。我建议技术人员看帖子应该更仔细一些。也不要说这东西你早都想到了之类的技术阿Q的话，我倒现在为止没听到国内一个公司的技术人员做出来这东西。从想法到实现，其实还有十万八千零一公里呢。

MySQL Sunday 见闻

Oracle Open World 第一天一般是注册日加上 Keynote，但这次下午安排了 MySQL Sunday 的活动，这倒是 Open World 上第一次出现 MySQL 的活动，去年可能正在忙于和 Sun 整合，来不及安排吧。之前，搜索了一下议程，有两场 Facebook 的工程师的 Session，早早赶到会场，听完虽然感觉料不够多，但也很过瘾。

Facebook 进行分享的两位工程师分享的议题一个为 Advanced MySQL Replication Techniques ，MySQL Team 的 Harrison Fisk 是演讲人，另一个话题为 Success with MySQL ，分享人是 Mark Callaghan，他也是 MySQL Engineering Team 的 Lead，Facebook 有个 MySQL Performance Team，是介于运维护与工程师之间的团队。演讲的过程中除了 Facebook 之外只能听到 Google，其它公司或许不值一提，也或许是 Facebook 和 Google 渊源颇深的缘故吧。

Facebook 的数据库团队之所以能够维护几千台 MySQL DB，和他们对 MySQL 代码层的驾驭能力有很大关系，Facebook 自己就发布了不少 MySQL 的 Patch(在 Lunchpad 上可以找到)，另外，Google 发布的 Patch 对他们来说也有很大帮助。此外，Facebook 也是当前世界上最大的 Memcached 用户，MySQL 的压力反而小了很多。基本上 DB 是用来做关系数据的存储以及跨 IDC 的数据同步。Faceook OLTP 环境的一些基本数据：查询响应时间 4ms ,写操作的响应时间为 5ms, 峰值每秒钟读取 3.5 亿行数据，修改行数为 350 万行，网络峰值吞吐量为 38GB，每秒钟应对的查询有 1300 万次。相当的惊人。大一点的表基本都进行了 Sharding，会后问了一下，Facebook 目前也没有使用 SSD，但是在做初步测试。

（这是 Facebook 之前的演讲现场，会场人不多，毕竟是第一天报到日）

会场同时也有其它关于 MySQL 的演讲，有关于 MySQL 5.5 新特性的介绍以及一些业界公司的 DBA 分享经验，可惜的是，人不算特别多，可能是听众目标不是集中的缘故吧。很多人的兴趣都还在傍晚时候 Oracle CEO 的主题演讲，当然，那些猛料这会儿大家应该都知道了。

–EOF–

2009年数据库技术领域回顾

简要回顾一下 2009 年数据库技术领域。过去的一年，差不多也可以说是过度的一年，数据库技术以及数据存储产品等都都或多或少发生一些方向上的转变。

Oracle 收购 Sun，MySQL 前途未卜

Oracle 收购 Sun 可谓一波三折。在获得美国司法部门的批准后，欧盟委员会又开始调查，Oracle 随后抛出一个”十条保证”，眼看着欧盟就要点头，没想到 MySQL 创始人 Michael Widenius(Monty) 则在这个当口不失时机的搞出来一个”拯救 MySQL”的抵制活动，让 Oracle 头疼不已。Monty 这人多少也有点上纲上线，现在已经将 MySQL 的命运和 “Internet Free”这个大话题绑在一起了。

没有人会相信 Oracle 会善待 MySQL，谁会干放虎归山的事情呢? 换了你也会把 MySQL 雪藏起来，毕竟商业公司就要逐利。但是，也很难说一旦收购完成后，MySQL 会在短期内消失，基于 MySQL 众多开源分支以及解决方案也都发展的不错，我相信最终决定权还是在用户的手里。就算没有 MySQL，也没准儿会有 YourSQL 出来的…

尽管口水战还在进行，MySQL 的开发者倒是没闲着，在年底发布了 5.5 第二个里程碑版本，原来站点上的 6.0 系列的信息全部撤掉。5.5 更像一个集成版本，将不少第三方贡献的功能改进(比如 Google 的 Patch)融合了进来。

而 Oracle 这一年在产品上的一个标志性事件是推出了 Exadata 存储第二版，与第一个版本不同的是，这一个版本在 OLTP 方面增强了许多。从这个版本开始，Oracle 正式拥有自己的存储硬件(第一版是和 HP 合作的产物)。RDBMS 上，除了发布 11g 第二版之外，也在做功能上的调整，这一次，面向的是数据中心。

NoSQL 的兴起

这是今年数据库领域最有趣的话题。NoSQL 的由来大约是这样的：当时还效力于 Last.FM 的 Johan Oskarsson （现在已经投靠 Twitter 了)组织了一个技术会议，话题是关于”open source, distributed, non relational databases”，为了方便一点，想出来一个 “NoSQL” 的术语。然后由 Rackspace 的 Eric Evans 引用，进而流传开来(refer)。NoSQL 在基于 Key-value 的存储解决方案上提倡去 SQL 化，尤其避免表连接，并且通过一些变通的办法提供 RDBMS 的 ACID 功能（如果需要的话）。

NoSQL 的理念能够短时间内被技术圈所接受，离不开基本的理论支撑：最终一致性、BASE 、CAP 这三大基石；一方面是基于 Key-Value 的数据存储解决方案更加成熟，

所谓 NoSQL ，是针对当前对关系型数据库的过度依赖与运用而言，不要将其当成万能药，也没必要过于激进的推行 NoSQL 的模式。在我看来，NoSQL 是针对争夺应用模式上的一种理念上的运用。对多数企业来说，仍属屠龙之技，没必要照搬解决方案。至于传统的 RDBMS 是不是已经走向末路，我认为不尽然。RDBMS 依然尤其广泛的应用场景，而NoSQL如果要有更大的作为也要有来自商业上的更大支持才会有所突破。

SSD 被更多企业接受

Jim Gray 在 2006 年的那句名言：Tape is Dead，Disk is Tape，Flash is Disk，RAM Locality is King ，现在正在被现实所验证。2009 这一年，用户已经开始进一步试水 SSD 产品，包括 MySpace、Last.FM 等网站已经开始在关键应用上部属 SSD(refer: 1, 2)。而国内也有很多企业对 SSD 进行尝试性的使用，这其中包括阿里巴巴、优酷。

更多的存储厂商已经在高端存储中兼容 SSD ，除了去年的 EMC 尝鲜之外，现在 IBM、HDS 、NetApp 都加入了这一阵营。

。

随着 SSD 的价格迅速下降，很多存储厂商已经开始调整硬件架构，现在有个看似可行的趋势是在 Cache 层与磁盘层之间多构建一个 SSD 存储层，在成本与性能之间做一个折衷。

在去年年底的回顾中，我曾大言不惭的说”相信2009 年会是 SSD 爆发的一年”，总体来看，2009 年对 SSD 的部属还谈不上”爆发”。中规中矩而已。

Amazon EC2 对 MySQL 企业版的支持

尽管我不愿意谈云计算，不过 Amazon 这一年在云计算方面还是做了很大的突破，Amazon EC2 上面现在已经可以跑 MySQL 企业版了，采取按照增长付费 (‘Pay-as-we-Grow’) 的模式让初创公司有更多的选择，这比 SimpleDB 可以说是前进了一大步。这种模式在国内是否可行，考虑到当前内容审查的问题，还有待商榷。

国内 Key-Value 产品

这一年来国内对 Key-Value 产品的研究与运用和国外基本没太大的距离，豆瓣网先作出了不错的表率，发布了 BeansDB 存储系统，这是一个豆瓣风格的 Dynamo 实现，采用类似 Memcached 的去中心化结构。而最近得到的消息说人人网也要将其内部使用的存储系统 Nuclear 开源。相信在新的一年可供参考的 Key-Value 会层出不穷。

其它方面

Hadoop 过去一年中没有太大的变化，上了一点规模的网站都在用，快成了 Web 数据分布式计划的标准组件了。Doug Cutting 出走 Yahoo! 还是带来了一定的影响，不知道今后 Yahoo! 在 Hadoop 方面的支持力度会如何。至于面向列的 DB 发展情况，在过去的一年中进展不大。SQL Server 和 DB2 等方面似乎没什么可圈可点的大事，倒是 PostgreSQL 因为 MySQL 的不确定性而取得了不小的增长。

有一点要补充的是，假以时日，Open Data 或许也将成为一个趋势。

当然，这份回顾有浓郁的个人色彩，有不同意见请留言探讨吧。

–EOF–

本文发表在《程序员》杂志，不过这里的有些许更新。本文写作时，Oracle 收购 Sun 还没有尘埃落定，现在看起来，一切都变化太快。

Second Life 升级 MySQL 的案例参考

尽管前一段时间有媒体报道 Second Life 已经悄无声息的衰败，不过林登实验室的人也还是很忙，这不，刚把一堆 MySQL 服务器进行了升级，还进行了详尽的经验总结(Refer)。

原有的 MySQL 都是跑在 4.1 版本上（4.1.11），在 2007 年的时候计划升级到 5.0 版本，不过遭遇到了…嗯，失败。当时的 5.0 版本不够快。被迫回滚。之后中心 DB 一直运行 4.1 的版本，而 Slave 和其它 DB 都逐渐升级到了 5.0.51 的版本。

用 Python 和 RabbitMQ 写了一个支持 MySQL 协议的分布式压力测试框架，该工具用于捕捉产品环境中的流量并在测试环境下回放模拟，以便更加接近系统的真实运行情况。此外，使用了 Maatkit 工具包用于验证 SQL 语法以及数据。

4.1.11 与 5.0.51 的对比测试表明，5.0.51 比 4.1.11 要慢不少，经过与 Percona 的沟通后，决定升级到 5.0.84 。从我几天前这份 MySQL 版本的调查看， 5.0.84 也是目前用户采用比较多的版本。初步测试 5.0.84 的性能和 4.1.11 的性能相差无几，随后测试打了 Percona 与 Google 的补丁的版本，未作调整下收益不大。一些关键的参数需要作调整以便得到更好的 I/O 能力（要注意如果是 SSD 环境下 innodb_read_ahead 参数要做一点调整，16K 还是 32K ? 要测试才知道）。此外，将 Binlog 放到单独的块设备上，得到 10% 的提升。值得注意的是，默认的系统 I/O 调度器不是很适合，切换到 Deadline 后得到了 15% 的提升(参考 I/O 调度器与 DB的关系)。

经过一番折腾，峰值并发达到了14-16k QPS，只用了 80% I/O 能力，而 4.1.11 最高是 8200 QPS，5.0.51 最高 11,500 QPS，看到这里，猜测他们费这么大劲升级也就是要得到更好的并发能力?

然后是对代码的验证上，包括 SQL 在不同 DB 版本上的正确性以及 SQL 运行的效率，后者也就是执行计划稳定性。这两个测试主要是用 Maatkit 来做的。对于后者，我个人觉得他们的验证过程还有点黑盒子，或许应该关注到具体的 TOP SQL 才会更稳妥一些。此外，复制数据的一致性检查也有必要加以重视。

这台中心服务器数据量大约 250GB。当前所用的服务器是 8 核 Xeon E5450 CPU，64GB 内存，400GB 的直连磁盘(RAID 10)，接下来有计划表明要迁移到 16 核的机器上，并且将启用 SSD 。

总体来看，对 MySQL 升级的过程其实也不是那么简单的，也要有个方法论与好的方案才会保证最后升级的成功。

–EOF–
延伸参考：Percona 针对 MySQL 5.0.84 的 Patch 说明。