作者文章: Fenng

闲谈 Web 图片服务器

现在很多中小网站(尤其是 Web 2.0 站点) 都允许用户上传图片,如果前期没有很好的规划,那么随着图片文件的增多,无论是管理还是性能上都带来很多问题。就自己的一点理解,抛砖引玉,以期能引出更具价值的信息。

事关图片的存储

把图片存储到什么介质上? 如果有足够的资金购买专用的图片服务器硬件或者 NAS 设备,那么简单的很;如果有能力自己开发单独存储图片的文件系统,那么也不用接着往下看了。

如果上述条件不具备,只想在普通的硬盘上存储,首先还是要考虑一下物理硬盘的实际处理能力。是 7200 转的还是 15000 转的,实际表现差别就很大。是选择 ReiserFS 还是 Ext3 ,怎么也要测试一下吧? 创建文件系统的时候 Inode 问题也要加以考虑,选择合适大小的 inode size ,在空间和速度上做取舍,同时防患于未然,注意单个文件系统下文件个数别达到极限。

独立,独立的服务器

无论从管理上,还是从性能上看,只要有可能,尽量部署独立的图片服务器。这几乎成为常识了(不过在我做过面向 Web 的项目之前就这个问题也被人笑话过)。具备独立的图片服务器或者服务器集群后,在 Web 服务器上就可以有针对性的进行配置优化。比如采用传说中更有效率的 Lighttpd

如果不想在几台机器间同步所有图片,只用 NFS 模式共享一下即可。注意软、硬连接可能带来的问题,以及 NFS 特定的传输速度。

独立,独立的域名

如果大部分 Web 页面必须要载入很多图片,那么需要注意 IE 浏览器的连接数问题(参见对该问题的测试)。

前几天有个朋友在线上问我,”一些大网站,图片服务器为什么都用另外一个域名? 比如yahoo.com 图片服务器用了 yimg.com 的域名?” ,粗糙一点的答案:除了管理方便,便于CDN 同步处理,上面说的 IE 连接数限制也是个考虑因素吧(其他原因我也不知,有请 Yahoo!的同学发言) 【还有一个我没考虑到的是 Cookie 的因素,参加楼下高春辉的留言】

雅虎 Web 优化 14 条

关于雅虎 YSlow 工具倡导的 优化 14 条规则,建议每个 Web 维护人员必须倒背如流,当然也应该辩证来看–介绍这 14 条规则的页面本身也只能得到 70 多分…其中的第九条和上面说的独立域名之间多少有些矛盾。实际情况要根据自己的 Benchmark 与具体需求而确定了。

有效利用客户端 Cache

很多网站的 UI 设计人员为了达到某些视觉效果,会在一些用户需要频繁访问的页面模块上应用大量的图片。这样的情况,研究表明,对于用户粘度比较高的站点, 在Web 服务器上对这一类对象设置 Expires Header 就是十分有必要的,大量带宽就这么节省下来,费用也节省了下来。顺便说一下,对于验证码这样的东西,要加个简单的规则过滤掉。

服务器端的 Cache

在国内,CDN 也是有钱才能玩得起。而类似 Amazon S3 这样的一揽子存储服务,国内还没有出现。所以,充分利用服务器端的 Cache 也是有必要的。Squid 作为反向代理服务器,缓冲图片效果应该说尚可,新浪技术团队贡献的 Ncache 据评测,效果更佳。

服务器端做Cache的好处是显而易见的,一个数据对象的请求时间会控制在 100ms 以内,否则的话,至少要几百个 ms 甚至更长。

高解析图片问题

如果网站存在大量高解析度的图片,那么有必要考虑部署 IIPImage 或者类似的软件。

运营问题

很多比较有规模的网站对于用户上传的图片不做任何处理,结果页面上还能看到很多 BMP 格式的图片(个人觉得任何网站出现 BMP 格式的图片都是可耻的)…这完全是运营上的策略之误了。找个程序员投入一点时间写个图片处理模块,对那些”截屏”得来的图片做个转换,投入成本可能远比存储上的开销小,而用户再访问该图片,质量未必能有什么损失,浏览速度无疑好多了。哪种处理方式更让人接受,不言而喻。

EOF

图片处理工具的选择

可能大多数网站都是选择 ImageMagick 做为基础库,不过这里也有一篇 GraphicsMagick 1.2 vs ImageMagick 6.3.6 Benchmark Report,如果图片处理量巨大,性能问题又怎能不考虑?

Lighttpd 的 ModCache 模块非常值得推荐。

Updated: 对于创业团队来说,推荐又拍云服务,用了都说好。

第二届中国网络工程师侠客行大会

China_Web_Conf.png

五月杭州,侠客行。第二届网络工程师侠客行大会 即将在 2008 年五月二十四号举行(旧贴日期有误)。

这可能是业界最有可能全部面向技术层次的会议,去年 来了很多业界牛人。相信今年能更加务实一些

希望能拉来更多业界“乐于分享”的技术高手,而不要通过简单的 Google 搜索来判断某人在业界的影响力。

非常值得关注的是 Flickr 的架构师 Cal henderson 今年会来。另外 Terracotta 的 Ari Zilka 的演讲也值得期待。

最新动态请关注 官网地址

豆瓣上该活动的信息

EOF

阿里三年

来杭州三年了,三年前,当自己做了那个决定,从没想过究竟能在这个当时看似神秘的公司工作多久。从第一年的有些不适应,到第二年想着”自己的浴室“,第三年,终于有个初步的打算在杭州安家。我想我应该是严格的”漂一代”,在任何一个地方(即使是家里)都找不到什么家的感觉,在杭州更是这样。

一位在业界爬摸滚打多年的多年的前同事曾经跟我说,”在一家公司,最多工作两年,时间太久,技术就老化了,人就混油了”,很庆幸,我还有点学习的劲头。只是,忽然间,我已经成了三年陈了。有人说,在互联网的一年,相当于七个狗年,那么我在这里工作了 “21 个狗年” 了。

或许,多少年以后,自己也能写本关于这段时间内的故事。这辈子未必再有机会经历一次这样的过程,能看到一个互联网应用从小到大,从几百万的交易额到几个亿的交易额…三年里,看到、学到的东西太多了,这是最大的的一笔财富。如何让这笔财富发挥出更大的价值,这是需要考虑的问题…3 年前找工作,有位老大姐说,”寻找那个机会来证明自己”,下句话是告诉我在那之前只有忍耐。

三年了,每天都在担心数据库的问题,担心那悬在头上的达摩克利斯剑会掉下来。或许,从现在开始,期待能够摆脱这个焦虑。所谓面朝大海,春暖花开,别到明天,从现在气,就开始做个幸福的人吧。结婚登记、房子装修、锻炼身体…工作、生活,必需要找到那个平衡点。

拥抱任何变化,适应任何可能的变化.

EOF

杭州三年

中午去银行转房子首付款,看到日期的时候注意到是 3 月 13 号,挺巧的,三年前的今天,我来到杭州。

回想起来,挺佩服自己当时光脚不怕穿鞋的那股劲儿。最近一段时间也在为支付宝招聘 DBA ,很多人一考虑到离开现在生活的城市来到杭州,退缩之意就很明显了。

同事发来邮件,要回答几个问题,其中一个问题是”你在阿里巴巴最大的收获是什么?” 回复了这句话: “现在支付宝有超过 6000 万用户,想到这里面有我的一份努力,偷偷自我满足一下:总算为中国电子商务做了点贡献。”

EOF