分类归档: Web

关于 Nutch 的一个问题: 中文乱码

很多朋友都遇到 Nutch 0.6 输入中文会出现乱码的问题。这个问题其实和 Nutch 关系不大,主要原因是使用 Tomcat 5.0 的问题。解决办法是修改 Tomcat 的 server.xml 文件的 connnector:

<Connector port="8080"
maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" /> 

继续阅读

MT 升级到正式版本

杭州大雨! 作为一个北方人,最不喜欢这样无聊的雨.

MT 升级到正式版本! 因为有了前面升级的经验, 所以很顺利.让我比较郁闷的是 FTP 客户端用了一天多的时间才把所有的文件上传完毕.主要是速度太不稳定了.对 3.2 最满意的地方就是 spamlookup 这个插件太好用了.中文用户如果说还有欠缺的话,那就是”中文语言包“了.不过平声一笑说马上会制作的.估计也真的等不了多久.

继续阅读

MT 3.2 upgrade failed , then OK

非常想体验一下 MT 的 AJAX 技术,尝试升级 MT 到 3.2 Beta 4,没有成功.今天看到 MT 3.2 Beta-5 is out.用了不少时间才上传到服务器上,折腾了半天,还是失败的.我用的是伯克利 DB,每次执行 mt-upgrade.cgi 脚本的时候, 只是在目录中创建了一个 config.db.lock 文件,然后就一直停留在那里.

真是恼火.服务器只可以通过 FTP 使用,不可以 SSH 登陆, 检查不到相关 Log .看到别人升级似乎都是很容易的.MT 的升级指导也描述的很容易.莫非这就是传说中的 RPWT ? 

继续阅读

The Long Tail (长尾)– 颠覆 80/20 法则?

东邪那里最早注意到这个词。最近看到有人评论卓越的销售模式。看过之后觉得这个 “Long Tail” 真的是个很有意思的。

什么是长尾(The Long Tail)? 目前没有准确的定义。相似的说法有:

  • “长尾”是统计学中Power Laws和帕累托(Pareto)分布特征的一个口语化表达。
  • “The Long Tail is the realization that the sum of many small markets is worth as much, if not more, than a few large markets.” –Jason Foster
  • “The Long Tail is what you get when the obscure becomes ubiquitous.”– Eric Akawie
  • “The Long Tail is the 80% of stuff that didn’t used to be worth selling.”–Greg
  • “The Long Tail is the story of how products that were once considered fringe, underground or independent now collectively make up a market that rivals the bestsellers and blockbusters.” –Bob Baker

“长尾”的应用在很多文章里都提及了(参考本文最结尾的文章列表).很多人似乎找到了 Web 2.0 的经济理论基础.

这里说说我自己的一点想法:我们常说 “80%的利润来自 20% 的客户” 之类的话,但是这里面还是有问题的。举个例子,假定一个站点有1000万用户,200 万用户给站点带来了 80% 的利润,那么剩下没有带来利润的那部分用户(少于 800 万用户)莫非可以抛弃了? 不尽然,从某种程度上说,虽然大部分用户没有带来利润,但是会带来一定的效应。可以让 20% 的用户安心的使用该站点提供的服务.否则如果竞争对手号称用户数大大超过该站点,那么无疑会引起用户的趋同行为–跑到竞争对手那里去.由此可见,长尾未必能扯底颠覆 80/20 理论.

“长尾”之于个人? 这个理论从某种程度上来说也适合于个人从业。从程序员的角度上出发,大家一窝蜂的都去学习 Java(mass-market),而能够精通 Perl(Niche-market) 的却很少, 那么精通 Perl 的人得到的回报肯定要比 Java 人员相对好一些.哦,说了半天,似乎是”物以稀为贵”阿…当然,”长尾”的提出是针对互联网经济的,和这个似乎不搭边.

看到的一些关于 long tail 的文章: