Google 的 robots.txt

我们知道,通过 robots.txt 文件可以阻止(不是绝对的)搜索引擎的爬虫或者机器人对自己站点的搜索行为。无意中看了看 Google 的 robots.txt 文件。

看看内容:

User-agent: *
Disallow: /search
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Disallow: /catalog_list
Disallow: /news
Disallow: /pagead/
Disallow: /relpage/
Disallow: /imgres
Disallow: /keyword/
Disallow: /u/
Disallow: /univ/
Disallow: /cobrand
Disallow: /custom
Disallow: /advanced_group_search
Disallow: /advanced_search
Disallow: /googlesite
Disallow: /preferences
Disallow: /setprefs
Disallow: /swr
Disallow: /url
Disallow: /wml
Disallow: /hws
Disallow: /bsd?
Disallow: /linux?
Disallow: /mac?
Disallow: /microsoft?
Disallow: /unclesam?
Disallow: /answers/search?q=
Disallow: /local
Disallow: /froogle?
Disallow: /froogle_
Disallow: /print?
Disallow: /scholar?
Disallow: /palm
Disallow: /complete

可以看出 Google 对大多数入口都是不允许搜索的。也怕后院起火:) /cobrand 这个有些陌生,看看什么内容?

Google.Cobrand.png

在 2000 年的时候,Google 的界面还要简洁。顺便看看百度的robots.txt:

User-agent: Baiduspider
Disallow: /baidu
User-agent: *
Disallow: /shifen/dqzd.html

/shifen/dqzd.html 这个页面干什么的?打开看看,原来是竞价排名区域核心代理一览表以及地区总代理一览表。这也算不上什么重要信息阿,还藏着掖着的。

再看看 MSN Search 的:

# robots.txt for http://search.msn.com
User-agent: *
Disallow: /results
Disallow: /keepalive/
Disallow: /static/
Disallow: /w3c/
Disallow: /cfgs/
Disallow: /schema/
Disallow: /kids/
Disallow: /Kidz/
Disallow: /pass/

虚拟目录,基本都进不去

robotstxt.org 几乎可以找到关于 robots.txt 的一切信息,包括互联网上 Robots 的数据库(可惜的是,国内搜索引擎的信息几乎为0,是否也反映了一些问题呢?)。


3 thoughts on “Google 的 robots.txt

  1. software download

    我的GG sitemap里面既然有这个错误,晕死了,是怎么回事?
    HTTP 错误 (1)
    HTTP 错误/未找到域名
    可能未正确解析 DNS。我们可以与 DNS 服务器通讯,但无法找到域名。

    Reply

Leave a Reply

Your email address will not be published. Required fields are marked *