Yahoo! 与 Hadoop

hadoop-logo.jpg

Yahoo! 和 Carnegie Mellon 大学合作的开源分布式计算项目代号为 M45,这个 超级计算集群 有 4000 个处理器,3T 内存,1.5 PB 存储空间,自称足以跻身世界超级计算机 50 强。这两天网络上搜索最火的一个词应该就是 Hadoop 了吧? 雅虎的这套集群就是跑在 Hadoop 上。

Hadoop 现在已经有很多不错的应用案例可以参考,比如这篇 Running Hadoop MapReduce on Amazon EC2 and Amazon S3

Yahoo! 或许早意识到自己的 Web 1.0 方式下的计算能力比 Google 差的太远,干脆放手一博,助力 Hadoop 项目,期望能借助开源的力量与 Google 掰一下手腕。从这里我们得知 Yahoo! Hadoop 团队早在 06 年就成立了,当然,这个团队成立的前提是 Doug Cutting 入职雅虎。

雅虎现在不应该担心追不上 Google ,应该担心 Doug Cutting 别被 Google 挖去,否则,可真的没机会了。

EOF

豆瓣价值 以及其他

国内 Web 2.0 网站的代表之一豆瓣网的用户正式突破 100 万,祝贺豆瓣团队!如果一个国外的 2.0 站点拥有百万用户的话,估计会有 N 多巨头来谈收购了。国内用户的价值就不值钱麽? 是的,的确是这样。不过豆瓣在用户的心中是最有价值的。

或许今天才算是 Oracle 11g 正式发布。因为各平台的都可以下载了。非常喜欢 收购的 Oracle 为什么不干脆把 Quest 收购算了? 或许这样才能把 Quest 那款非它不可的软件价格降下来。当然,Quest 也不是吃素的,也会玩收购,把提供虚拟桌面环境解决方案的 Provision Networks 收购了。

EOF

AIX 6 新特性关注点

IBM 为配合 Power 6 CPU 而推出的 AIX 6 即将正式发布。在 AIX 5 的基础上学习 AIX 6,最好的入手点就是 IBM AIX Version 6.1 Differences GuidePDF) 了。匆匆看了一下,记录几个比较感兴趣的点。

JFS2 的新特性

关掉 JFS2 的 Log: mount 的时候 log=NULL 可以关掉 JFS2 的日志。在一些特定的场合(如:恢复)会比较有用。另外一个特性是内部快照(internal snapshot),即可以在同一文件系统上创建快照。

限制每进程的线程数

在以前的版本中这是做不到的,AIX 6 可以通过静态或者动态的方式修改每个进程的线程数量。属性由RLIMIT_THREADS 与 RLIMIT_NPROC 值控制. ulimit -a 可以查看值。

线程环境变量 pthread 1:1

pthread 也就是 POSIX Threads,AIX 6 对 “contention scope” 的 m:n 做了调整。
aix_pthread.png
AIX 5 上 跑 Oracle RDBMS, Oracle 建议 export AIXTHREAD_SCOPE=S. 看来以后不用这么费事了。

补充一下这个 M:N ,一共有三种:

  • M:1 (Library) 模型:M:1 (库模型),每个进程都有一个核心线程。竞争范围:process(本地)
  • 1:1 (Kernel) 模型:每个用户线程都有自己的核心线程。竞争范围:system (全局)
  • M:N (Hybrid) 模型:M 个 用户线程对应 N 个 Kernel 线程。默认是 8:1(AIXTHREAD_MNRATIO) 。竞争范围:以上两种方式混合)

pthread_scope.png

这个变化多少了反映了 IBM 在计算模式变化的方向上的倾斜。

动态虚拟内存 Page Size

AIX 6 支持四种值,4k、64K、16M、64GB. 一个新的需要知道的缩写:Dynamic variable page size support (VPSS)。VMM 可以动态修改 Page size ; 大的 page size 对应用是透明的(是不是会触发Bug,鬼才知道); 硬件支持(Power 6)的情况下 VPSS 是激活的。

”限制性可调“的核心参数

AIX 6 对一些比较关键的参数划了个类别:”限制性可调“(restriccted tunables) ,调整的时候会警告用户, 建议在厂商指导下进行:)

其他

安装程序更新了,现在是……图形化安装了

EOF

此文作者:, 位于 Tech.Memo 分类 标签: on .
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

财帮子(caibangzi.com)网站架构

财帮子(caibangzi.com) 定位在”基金理财社区”。是国内访问量最大的基于 Ruby on rails 的 startup 项目。“理财”这个词据说是光大银行发明的,且不去管,不可否认的是,目前国内”理财”是个很有潜力的切入点。财帮子网站潜在用户群还是很大的。

1.创建人员

创建者有三人。Robin Lu(石锅拌饭)Meng Yan ( 孟岩 ) ,还有一位”不写Blog的家伙”。前两位都是技术人员。很早就看过孟岩 的 Blog,那时候他还在 Sun。Robin Lu 的 Blog 也一直在我的订阅列表中的,所以财帮子刚成立我就知道的。倒没有细问第三位是技术人员还是负责商务。(Updated: Robin Lu留言说”财帮子那位不写blog的创建者也是工程师,叫赵路,曾经是 Mozilla 项目accessibility模块的module peer.”

2.服务器信息

Web 服务器用的是 Lighttpd ,出于节省成本的目的,服务器是自行组装的。数据库采用的是 MySQL 5,目前还没有使用 Replication. 正准备扩充服务器,服务器数量…暂且保密一下。

3.统计分析及监控

统计分析采用 Google Analytics 和 Awstats 。目前 Alexa 排名是 2 万一点。监控工具用 monit,”以及自己写的一些分析 Proc 的脚本”,再有就是 Unix 性能工具等。(Fenng: 服务器处于规模化之前基本上要这个样子)。

4.优化之路

Robbin 在此前的一篇 财帮子性能优化简报披露:“财帮子两个星期以前,遇到严重的性能问题,最终我们采用了相当非主流的部署方案和打了自己补丁的web server,成功度过了难关”,我很好奇这具体是个什么问题。得到的答案是:“Apache的负载均衡是有问题的,算法太简单了,对Ror的应用来说,会造成某一个app instance的阻塞,从而阻塞了所有的request”。

谈及 Cache 的感慨:

Fenng: ... 我个人感觉你们需要Cache服务器, 这一类的站点内容需要 Cache 的太多
Meng Yan: ...Web 2.0网站的 cache 非常重要。我们从Mem的cache,到disk的cache,
再到数据库的cache,架构还不错,否则当前机器撑不住 :)
Fenng: 很多站点扩展作不好,也是Cache没用好
Meng Yan: 是啊,Cache非常重要,非常非常
Fenng: 豆瓣的阿北说他们 Memcached 用的非常爽,命中率非常之高
Meng Yan: 确实,我们的内存cache就是用的memcached,真的很棒

5.挑战

这是就这次采访的最后一个问题。

Fenng:还要采访你一个问题:caibangzi.com 现在运营、开发面临的最大的一个问题是什么? 
Meng Yan:目前可能我们遇到最多的是合作、商务上的事情。真正开发、运营上来说对我们的挑战还不大。

6.后记

这次采访(如果可以说这是采访的话)非常顺利。财帮子从三月底上线,到现在已经积累了一定数量的用户,当然不是十全十美的(我个人就感觉应该提供更多的RSS输出才是,不要太在乎站点流量,流量本身也是开销),网站也还有很长的路要走。真诚希望财帮子能成为更多人的理财工具(至少我已经开始用了)。

这是我第一次写国内 Web 2.0 网站架构技术。感谢 Meng Yan 提供的第一手信息。关于网站架构,我在这个 Blog 上写过不少国外的站点分析。一直想采访一些国内的 Web 2.0 站点并且能披露点技术信息,相对来说,国内站点还是比较保守,各自闷头折腾。为什么不换个角度,分享、借鉴、壮大,这个方式不也不错麽?

BTW: 如果你有 Web 2.0 站点技术信息要报料,联系我!(要写软文就免了)。

EOF