用 Sitemap Generator 创建 Google Sitemap

今天偶然注意到 Google 对我的站内搜索数量锐减,从前一段时间的将近 1 万 变成现在的不到 1 千了.稍加分析了一下,原来在每篇文章的页面最上方也加了站点的描述内容,最初的目的完全是为了美观,没想到搜索引擎把这些页面都当作相似页面成处理了.雅虎和百度的站内搜索结果也是类似的.
不由得想起另一个问题: Google 的爬虫到底能不能遍历我的站内所有页面 ? 似乎不太可能.回想起 Google 的 Sitemap 也发布很久了, 并且不提供联机创建 Sitemap 的功能, 已经能够说明对很多比较复杂的站点 Google 仍有不足之处. Google 推这个工具的功能恐怕也是为了用户能从客户端把信息推到搜索引擎这一端(Google 用意).
此前我的站点 Sitemap 采用的是 MT 模板的方式 ,参考 Google Sitemaps using Movable Type , 这样我的旧站的内容就忽略掉了. 我现在使用的 Dreamhost 的服务,是支持 Python 的 ,并且可以 Shell 登陆, 准备用 Google 推荐的 sitemap-generator 来”帮助Google一下”. 具体的操作在 Google 的帮助页面有很详细的说明. 需要注意的是,该工具要通过代理才可以下载,不知道其他人是不是也和我一样.


我的操作结果:

$ python sitemap_gen.py --config=dbanotes_config.xml
Reading configuration file: dbanotes_config.xml
Opened URLLIST file: example_urllist.txt
Walking DIRECTORY "/home/fenng/dbanotes.net/"
Opened ACCESSLOG file: /home/fenng/logs/dbanotes.net/http/access.log
Opened ACCESSLOG file: /home/fenng/logs/dbanotes.net/http/access.log.0
Sorting and normalizing collected URLs.
Writing Sitemap file "/home/fenng/dbanotes.net/sitemap.xml.gz" with 10855 URLs
Notifying search engines.
Notifying: www.google.com
Count of file extensions on URLs:
421  (no extension)
1  .avi
6  .back
1  .cert
2  .cfg
238  .cgi
2  .cgi-original
1  .chm
13  .conf
89  .css
9  .ctl
13  .dat
27  .db
7  .doc
12  .dump
1090  .gif
4  .gif0000644
8  .gz
261  .htm
2  .htm0000644
2244  .html
60  .ico
82  .idx
6  .inc
1  .ini
219  .jpg
382  .js
1  .lang
5  .lib
118  .lock
1  .log
1  .lst
2  .mysql
15  .pdf
1643  .php
62  .pl
1093  .pm
547  .png
9  .pod
2  .postgres
3  .py
6  .rar
6  .rdf
4  .readme
1  .rss
1  .sh
10  .sql
2  .sqlite
2  .src
1  .svg
2  .swf
1  .template
560  .tmpl
53  .tpl
59  .txt
4  .types
4  .wsdl
179  .xml
1  .xsl
15  .zip
1241  /
Number of errors: 0
Number of warnings: 0

之后更新 Google Sitemap 的配置信息,会立刻得到Google确认. 但是最后在搜索引擎中的表现,还要拭目以待.
更多阅读:Apache Cocoon sitemap concept
Updated: 2006-01-29 观察到搜索结果数量已经得到更新. 当日是 1800 多


  • http://cero.cn cero

    我是用的wp自带的sitemap生成插件做的 效果很不错!最近也换了D的主机感觉确实方便 改天也试下Python

  • http://www.dbanotes.net Fenng

    如果站点只有一个WP,没有其他零碎的文件,那么用WP的插件或者MT的解决方案都是不错的
    我现在用 crontab 调度,一天跑一次

  • lcmtwn

    我也是Dreamhost用戶,在進行驗證時,遇到底下的問題:
    “我們偵測到您的 404 錯誤 (找不到檔案) 網頁傳回標題 200 (正常) 的狀態。”
    一直顯示無法驗證
    請問你使用時,有遇到類似問題嗎?

  • http://webranking.goklik.com build web ranking

    Hi
    GG sitemap 有些软件可以帮你完成的,可以到这里去看看:Creating sitemaps for Google MSN and Yahoo

  • http://www.fbics.cn whatnames

    毫毫毫毫毫毫毫毫毫毫毫毫毫毫毫毫毫

  • http://nethgr.com 耐特艾嘉

    我也按照google sitemap的介绍搞了一个.
    但是有个问题想知道, 能不能规定google每天都来访一次, 这样我的blog里的内容就能天天和google搜出来的同步了.

  • http://www.dbanotes.net Fenng

    Google 自然会定期搜索的
    不过你的”规定”似乎很难

  • http://phenterminedrugs.afdss.info/phentermine-pharmacy.html statistically

    Hello, there was some interesting site with nice design

  • uncooldog

    你好,请问用日志来自动生成sitemap文件,如果日志很大的话,处理起来要很久的

  • http://www.dbanotes.net Fenng

    是需要很久的。所以我后台Crontab来做,定提高这个Job 的优先级

  • http://easun.org/blog/ 路杨

    这个sitemap内容是不是只能包含*,html?xml是否也可以包含?另外,MT插件做的似乎只有文章页面而没有索引页。

  • http://www.dbanotes.net Fenng

    文件类型在上面的Log里已经列出来了

  • http://easun.org/blog/ 路杨

    但是看 http://www.dbanotes.net/sitemap.xml 里面的类型全部是html啊:)

  • http://www.dbanotes.net Fenng

    我提交的不是那个 xml 文件

  • http://www.model-shows.com 模型展览网

    我的网站刚建不知道如何被google收录,所以求教具体步骤.
    模型展览网网址:http://www.model-shows.com
    科技论坛:http://www.model-shows.com/bbs

  • http://www.soccer-pitch.com/ 很想学习如何创建GOOGLE SITEMAP

    很想学习如何创建GOOGLE SITEMAP

  • http://www.eecn.net grantman

    不错

  • Pingback: 让Movable Type生成Sitemap | 我的空想特摄()