作者文章: Fenng

谈谈 TPC-C 这事儿

蚂蚁金服的数据库据说又跑出来新纪录了,打破外国数据库(Oracle)垄断了,扬眉吐气了。

去年用了 207 个数据库节点,每个配备 8 块 SSD,这一次用了 1557 个节点,每个配了 4 块容量更大 IOPS 更好的 SSD。看起来,上次 I/O 配置并不太合理,瓶颈还是最终压在了 SSD 上,这一次可以更优化了一些。

也不是没有亮点,每 tpmC 成本降低了不少。上次 6.25 人民币,现在是 3.98 人民币。

仔细一看系统总成本(Total System Cost),超过 28 亿人民币。上一次破了 Oracle 9 年前的记录,系统总成本是 3.8 亿人民币。希望我没看错数字分隔。

穷人谁能玩得起啊?只要你有足够多的钱,弄足够牛逼的硬件,都可以跑个不错的结果出来。Google、亚马逊只要愿意花钱,也都可以出来炫耀一下。

要我说,如果要数据库软件牛的话,每家都用固定的硬件,比如给你个同款同配置的 MacBook Pro 笔记本当服务器,然后你跑吧,跑出越高分越牛。


以下内容写于 2019 年 10 月:

Oracle 的 TPC-C 记录,停留在 9 年前。当时用的是 11040 块 SSD(别惊讶,大家都是堆叠硬件),每块容量 24GB。当时单个 SSD 的 IOPS 最多能跑到几万。

蚂蚁金服的 OceanBase,用了 1632 块 NVMe SSD(204 个节点,每个节点 8 块),每块容量 1.8TB。现在单盘 IOPS 大约是几十万。没给出具体的型号,确切数字只能用行业平均值预估。

SSD 的容量其实在这里没有意义,就是用来数据存储。主要看 IOPS 的能力。NVMe SSD 因为采用了新的协议,有更低的时延(Latency),所以,吞吐能力更强。

TPC-C 这种测试,要跑 Transaction,IOPS 必然是瓶颈。粗略估算一下,OceanBase 所部署的设备,I/O 能力至少是 Oracle 两倍,因为不止是存储 I/O 的能力增强了,网络 I/O 的能力也增强了,网络延时更低。

TPC-C 跑出两倍来真的没什么奇怪,跑不出两倍才会奇怪。更别提摩尔定律了。

啥?摩尔定律,要提这个,就有意思了。简单一点,把 Oracle 当年测试的存储部分的成本,用来购买今天的存储硬件。几分之一的钱,就可以买到跟当年所用的存储一样的 IOPS 能力了。

然后你看,Oracle 9 年前的记录,每个 tpmC 成本 1.01 USD,当时美元人民币的汇率是 6.3 啊。9 年后,OceanBase 是 6.25 人民币/tpmC。这个指标其实挺惨淡的。

或者也可以说,蚂蚁金服开发的这个数据库,从 Total Cost of Ownership(总体拥有成本)上来说,并没有给自己省钱。当然,解决了自己业务场景的瓶颈,另当别论(那你咋不说还有人力开发投入呢)。

Oracle 如果要重新拿一个更好的记录,应该没有任何悬念,把 SSD 和 PCI-e 什么的换成最新的,数据库版本就用当年的老版本都没啥问题。

TPC-C 这个东西啊,SSD 没有商业应用之前,物理硬盘的时代,峰值也就是跑到百万的级别。得用 2000 多块硬盘。

后来为啥大家都对 TPC-C 不太积极了呢?并不是 Oracle 孤独求败了,主要是 SSD 成熟之后,I/O 几乎不是瓶颈了,宣传自己的硬件服务器性能有多好,忽悠不住客户了。而且,整个行业的计算架构都发生了变革。TPC-C 这个东西,过时了。

所以,厂商跑出来的记录真不具备可比性。或者说,具有很大的欺骗性。当然,商业公司愿意搞这个,也要考虑到一些其它因素,比如小团队或是个别技术负责人总要自己的业绩的嘛,搞点新闻,好在内部争取利益的嘛。

其实这种手法很常见,知道就可以了,别当真。做技术的,自己要有这个基本的判断能力。

咋说呢,就好比俩人跑百米,一个 9 年前创造了记录,但吃了一片儿兴奋剂。9 年后,随着科学技术的进步,另一个也破了记录,当然也吃了兴奋剂,还他妈的吃了两片儿。

注意这个比喻并不十分准确,甚至有点误导。即使有人会以为这是谁把尘封九年的百米校运会记录打破了,人家当年是在土路上跑出来的记录,可是,现在你在塑胶跑道上,还五六级顺风,跑出来一个新纪录,体育老师会认为这…得打点折扣吧。不能自己骗自己啊。

都挺扯的。

技术领域的事情,我认为还是应该踏实一点

此文位于 Review on by .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

豆瓣是中国互联网的骄傲

豆瓣是中国互联网的骄傲。这个网站的出现就像一次基因突变。在当时,中国互联网公司大多是抄袭美国的产品创意,而豆瓣,则是阿北带来的原创性的产品。

阿北现在不怎么抛头露面了,早些年,阿北是文艺青年的心头好,媒体尤其喜欢写豆瓣的故事。豆瓣是文艺的,阿北也是文艺范儿十足,有句话怎么说来着?「愿你出走半生,归来仍是少年」,这句话用来形容别人,我觉得都是夸张甚至矫情,但用来说阿北,就非常的准确。

我认识阿北蛮早的,那还是 2006 年 5 月的一天,收到阿北发来的邮件,问是否有意愿加入豆瓣团队。我那时候在杭州,不太想回北京,就婉拒了。但认识阿北,倒是很欣喜。

大约一年后,在杭州的「侠客行」技术大会上,见到了阿北。那会儿我还不太会和人聊天,晚上活动的时候我自告奋勇给阿北和高春辉带路,也没个地图导航软件什么的可以用,领着这俩人走了一大段冤枉路。好在到了活动场地大家很快就交流了起来,都是纯技术的内容,很少讨论商业话题,太庸俗了。

豆瓣早期非常重视技术,是最早用 Python 做主要开发语言的有影响力的中国互联网公司,也因此聚集了一群技术好手。后来几年,我帮着 InfoQ 做会议,也顺带宣传了一下豆瓣的技术实力,认识了不少豆瓣的朋友,现在这些朋友已经基本从豆瓣离开了,走在各自的创业路上。

我以前写博客,有次写着写着心灰意冷,说做 Google 广告的收入连每年托管费都不够,打算关掉网站,阿北看到后嘱托同事赞助了我三年的网站托管费,于是,就又坚持写下去。

因为这件事,我一直很感谢阿北,感谢豆瓣。

我印象里的豆瓣,技术是早期的关键词,然后才是文艺。

以前去北京,第一个想去参观的公司,就是豆瓣。给我印象最深的是,豆瓣的「胖子」办公室桌子上放着一堆空酒瓶儿,还是烈酒,据说代码写高兴了的时候就喝几口,哎呀,酷极了。那会儿,有很多豆瓣用户慕名跑到豆瓣去,每天办公室各种人探头探脑的,豆瓣员工见怪不怪,好像也没什么影响。

有人说文艺青年们绑架了豆瓣。豆瓣每次改版,都会引起大量用户的反对,会干扰豆瓣的一些判断。但我觉得不是这样,有谁能改变阿北呢?我认为是豆瓣最近几年没有了创新的能力,或是失去了动力,改版不会解决本身的问题。阿北似乎已经在享受生活,对豆瓣抓得没那么紧了。

文艺青年是谁?文艺青年是豆瓣的主流用户。文艺青年并不是没有商业价值,而是豆瓣一直没挖掘出这部分的商业价值。如果豆瓣把新产品的动力放在商业化上,豆瓣可能早就赚钱了。

豆瓣是最早倡导用户体验的团队之一,而且,坚持不让不好的东西伤害用户体验。这种原则让用户由衷的喜爱豆瓣,可是,也影响了豆瓣的商业探索能力。

那会儿,大家还不太热衷讨论如何做产品创新。豆瓣可做过太多新产品了,早期的创新尝试,吸引了不少优秀的技术和产品人加入豆瓣,但这些新产品,现在大多都已经关掉,人才也就随之而去。这些产品里,有些相当超前,比如阿尔法城,试图要构建一个虚拟的城市社区,即使现在拿出来,还会吓人一跳。

豆瓣在移动互联网时代错过了机遇,微信起来之后,豆瓣在内容上没跟上节奏。有一次我夜里想起来这件事,觉得很重要,还给阿北发信息,我说你们豆瓣站内这么多好内容,赶紧做公众号啊,做内容运营啊……阿北回我说,他也注意到了,团队正在做。

最近两年,感觉豆瓣的产品改进慢了,出现了很多遗留性的问题,比如账户的统一登录问题,比如,移动页面的适配问题,有的时候看到,还会忍不住反馈给豆瓣团队。

有的互联网创业者都应该感谢豆瓣。创业初期,典型的做法是跑豆瓣上拉用户,导流量。豆瓣这么多年,堪称互联网上的活雷锋(另一家是大众点评),为太多的创业项目贡献了种子用户,不知道被薅了多少羊毛。在这一点上,豆瓣就像 Craigslist。

但阿北是个心胸非常豁达的人,从没见过他对此有什么怨言,这种境界,很难达到。

喜爱豆瓣的用户总替豆瓣操心,担心豆瓣赚不到钱。其实,作为用户,你有很多方式可以帮到豆瓣。比如,你买书之前,总会到豆瓣查询一下,然后顺着页面右侧的推荐位去买书就好了。这样,豆瓣就会增加一点收入,你就对这个世界多做了一点贡献。

完全不需要多付出什么成本,满足自己购书需求的同时,还可以帮到豆瓣。何乐而不为呢?其实如果豆瓣用户都有这种习惯的话,豆瓣就会发展更好一点。

我经常要到豆瓣查询图书信息,然后大多数时候顺手从右边的链接就下单了。当然现在有的书豆瓣也有售,豆瓣阅读也有电子书可以看。

豆瓣的图书评分,是国内图书评价体系最好的。几家电商网站,自己也做图书评价体系,做得乱七八糟,尤其是京东,为什么不直接和豆瓣合作一下呢?调用豆瓣 API 就行了啊。但中国互联网公司之间,是没有 API 的,中国互联网行业通行的 API 其实是爬虫。

对于电影,也是如此。第三方购票平台上的评分,简直没办法看,比如说猫眼,随便个电影都是 9 分以上,你怎么区分是不是符合自己的口味呢?每次要看电影之前,我还是习惯去豆瓣看一下评分,以免上当。当然,也可以通过豆瓣的链接去购票,同样也会给豆瓣带来收益。

豆瓣是业界公认的「慢公司」,但恰恰就是这种慢,让豆瓣保持住了纯粹性。让这个互联网上还有一个真实的地方。

很多快公司都死掉了。而很多最初小而美的公司,在资本的不断鼓动之下,变成了大而无当的公司,最后反而死得很难看。

如果豆瓣有一天不存在的话,我们看个电影看本书都没有一个可以相信的评价体系了。所以,应该爱护豆瓣。

希望豆瓣终能抵达美好之地。

阿北永远年轻。

文章来自我的公众号:

此文位于 Review on by .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

被 viagogo 坑过

通过 Google 搜索演出票务信息,能看到一家叫 viagogo 的网站。我被这个网站坑过,一张正常的门票,最后付出了几倍的成本。

他们的套路是提醒你门票马上没了,你得赶快支付,支付的时候又需要填写一堆东西,也就没时间仔细看服务条款,更不要说到其它站点查看这个站的声誉问题。

尤其坑人的是,一旦支付,不能退款。

演出门票,尽量到官网购买。

这种坑人套路以前都是国内网站喜欢用的,没想到国外人也早就轻车熟路。提醒一下大家,使用这个网站的时候,谨慎一些,不要掉坑。

此文位于 Review on by .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

无码科技寻找搜索工程师

​​无码科技团队继续寻找创业伙伴。现在,需要更多的搜索技术工程师加入我们。

工作职责:

  • 改进检索相关性,提升在线检索系统的检索质量和排序效果。
  • 研究分布式信息检索的服务架构,构建高可靠性、高性能的分布式检索系统。

职位要求:

  • 具备 2 年以上搜索研发经验。
  • 深入理解全文搜索,熟悉倒排索引、中文分词、自然语言处理、Query 分析等相关技术。
  • 深入了解搜索相关性排序算法。
  • 熟悉 Elasticsearch/Solr 其中一种开源搜索架构。
  • 熟悉分布式系统、高并发处理,并有相应的设计开发经验,能够高效地分析计算大量数据。
  • 熟悉 Python/C++/Java/Golang 语言中的至少一种,对数据结构和算法设计有较为深刻的理解。

加分项:

  • 有大型搜索引擎系统研发经验。
  • 有 Elasticsearch 插件开发经验优先。
  • 熟悉 NLP 相关技术优先。

公司地址:

  • 杭州市滨江区。

简历请发到:[email protected]

推荐朋友入职有物质奖励。

此文位于 Review on by .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.