不得不说,Google 的 Webmaster Tools 功能越来越强大了。参考车东的这篇网站的外链/内链统计:来自Google的网站管理员工具,也对 dbanotes.net 进行了一下简单分析。站外链接的前三十条如下:
13975 www.openrss.net 10829 cang.baidu.com 10586 www.itpub.net 3935 www.wangtam.com 3655 blog.csdn.net 1748 blog.94smart.com 1639 blog.donews.com 1540 www.08show.com 1283 www.shunz.net 1281 www.kuangfeng.cn 1095 www.hecaitou.com 1080 blog.xfocus.net 1008 yangtingkun.itpub.net 988 reader.solarvistas.net 985 www.cnblogs.com 957 del.icio.us 922 kakaryan.webcan.cn 900 www.365key.com 789 www.chedong.com 639 zhanbin.com 606 www.feedshow.com 584 in.comengo.net 567 www.i170.com 565 www.ithack.net 525 www.lifebang.com 505 wulujia.com 481 pengjiayou.com 468 www.anysql.net 461 www.megite.com 389 www.builder.com.cn
OpenRSS.net 是我利用 Gragarius 软件搭建的在线 RSS 阅读工具。而来自”百度搜藏”的数量超出想象,而英文书签站点总体数量也不及百度的一半。有的站点(象solarvistas)居然第一次才知道。ITpub 是我常去的一个论坛,链接多应该是因为我做了签名档的缘故。
参考命令:
awk -F , '{print $2}' Links_external_www.dbanotes.net-_20070422T035406Z.csv \
|awk -F "/" '{print "<a href=http://"$3">"$3"</a>"}'\
|sort|uniq -c|sort -rn |head -n 30
(为图方便,直接用车东的命令,稍加修改了一下,其实还可以写的更简洁一些。
网站地址的外部链接统计前三十条:
https://www.dbanotes.net/ 51058 https://www.dbanotes.net/sitelog/how_to_subscribe_dbanotes_blog.html 5402 https://www.dbanotes.net/blog/ 2742 https://www.dbanotes.net/cats/ 596 https://www.dbanotes.net/cats/index.rdf 430 https://www.dbanotes.net/database/craigslist_database_arch.html 391 https://www.dbanotes.net/web/flickr_web_tech.html 320 https://www.dbanotes.net/sitelog/dbanotes_mt_templates.html 229 https://www.dbanotes.net/database/ebay_storage.html 220 https://www.dbanotes.net/review/dreamhost_really_sucks.html 212 https://www.dbanotes.net/Oracle/Install-Oracle10g-RHEL3.htm 203 https://www.dbanotes.net/web/technorati_db_arch.html 195 https://www.dbanotes.net/Oracle/Use_OpenSourceTool_implement_YourOwn_TPC-C.htm 177 https://www.dbanotes.net/review/google_china_daohang_and_others.html 174 https://www.dbanotes.net/Oracle/Use-SQLPlus-to-Create-HTML.htm 169 https://www.dbanotes.net/web/suggestion_to_web_20.html 164 https://www.dbanotes.net/review/review_words_20070316.html 162 https://www.dbanotes.net/review/second_life.html 157 https://www.dbanotes.net/techmemo/reinstall_xp_memo.html 157 https://www.dbanotes.net/database/dst_daylight_saving_time_oracle.html 154 https://www.dbanotes.net/review/blogger_make_money_and_blog_network.html 152 https://www.dbanotes.net/Oracle/10G-Beta-Install-Bug.htm 151 https://www.dbanotes.net/sitelog/dreamhost_outage_again_and_again.html 151 https://www.dbanotes.net/sitelog/movable_type_rss_comments.html 146 https://www.dbanotes.net/review/livid_v2ex.html 140 https://www.dbanotes.net/sitelog/blog_stats_0701.html 138 https://www.dbanotes.net/archives/2005/01/nutch_aee.html 138 https://www.dbanotes.net/review/24_hours.html 135 https://www.dbanotes.net/review/autoroll_a_widget_about_blogroll.html 135
说明一下,Feed 地址少是因为 RSS 地址都转向到 FeedBurner 上了。第二条是关于如何订阅的,可能也因为我在论坛上做了签名档有关。关于一些网站架构的文章,虽然技术细节不多,可能因为这类话题更容易吸引眼球,链接还是不少的。
–EOF–
Nutch 初体验
Nutch 初体验
网站的外部链接统计
车东在Gtalk上问我,做没做网站的外链统计?突然发现Goo…