在《什么是Googlebot?》以及《如何阻止 Googlebot 抓取您网站上的内容》两篇博文中,我们都曾提到这个神秘的 robots.txt ,这到底是个怎样的文件呢,它又有哪些神奇的功能呢?
robots.txt 文件最主要的作用是限制抓取网页的搜索引擎漫游器对您网站的访问,也就是让那些网页抓取机器人不去抓取你的特定网页。 这些搜索引擎漫游器都是自动的,它们在访问网页前会查看是否存在阻止它们访问特定网页的 robots.txt 文件,robots.txt可以说是给这些自动的搜索引擎漫游器在抓取网站内容的时候设置某些禁区。
robots.txt 文件必需位于网站的根目录下才可起作用,例如水石居的地址是:http://www.letuknowit.com,则robots.txt的位置就应该是 http://www.letuknowit.com/robots.txt 。
robots.txt中都是些什么内容呢?
robots.txt通常包含一条或多条记录,每条记录由一行或者多行空格隔开,每个记录包含的形式为”<field>:<optionalspace><value><optionalspace>”,字段名称不区分大小写。在该文件中可以使用#进行注释。
通常情况下都是以User-agent开始,后面加上若干Disallow和Allow行,其中
- User-agent: 用于描述搜索引擎robot的名字,User-agent的值可以设置为*或者某个搜索引擎robot的名字,例如Google的robot的名字就是Googlebot,User-agent设置为*说明对所有的robot都有效。每个robots.txt文件中只能有一条”User-agent:*”,但是可以有多条”User-agent:somebot”,每条”User-agent:somebot”只受置于其后的Disallow和Allow行的限制。
- Disallow: 该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的任何URL都不会被robot访问,例如Disallow:/help 将禁止robots抓取/help.html 和/help/index.html, 而Disallow:/help/ 将禁止抓取/help/index.html 但是允许抓取/help.html。
- Allow: 该项的值用于描述希望被访问的一组URL。
实例演示
# robots.txt for http://www.letuknowit.com
User-agent: *
Disallow: /cyberworld/map/
Disallow: /tmp/
Disallow: /foo.html
上面这个robots.txt将禁止所有的robot抓取URL以/cyberworld/map/或者/tmp/开头的网页以及/foo.html
# robots.txt for http://www.letknowit.comUser-agent: * Disallow: /cyberworld/map/ # Googlebot knows where to go. User-agent: Googlebot Disallow:
上面这个robots.txt将禁止除了Googlebot外的其他robot获取URL以/cyberworld/map/开头的网页
# go away User-agent: * Disallow: /
上面这个例子告诉我们,想让自己的网站没人访问就这么干吧。
想了解更多关于 robots.txt 的信息 >>>传送门<<<
原创文章请注明转载于知蚁博客,本文地址:http://www.letuknowit.com/archives/26
呵呵,不错的啊,支持!
学习了
这个文件对SEO太重要了!