这几天刚好在在研究robots.txt,于是就把自己网站中的robots.txt文件下下来看了下,结果如下
User-agent: *
Disallow:
其中除了Sitemap有点用外,其余的就等于是摆设啊,也就是说我网站上的所有网页都可以被那些搜索引擎的机器人抓取,这可不是什么好事,因为这其中有很多wordpress本身以及安装的一些插件的文件,这些文件可没有展示的必要(后面简称为:非展示网页),在《什么是Googlebot?》中曾说过“Google的目标是:每次访问您的网站时,以您服务器的带宽所允许的速度尽可能多地抓取网页。”,Google如此,其他搜索引擎也是同样的道理。
好了,我们服务器的带宽是有限的,如果我们不做限制,那些搜索引擎的网页抓取机器人抓取你要展示的网页的几率就降低了,此外还占用不必要的带宽。于是赶紧去查看访问日志,不看不知道,一看吓一跳啊,在记录的790条记录中,其中有700条属于非展示网页,并且都是以 /wp- 开头的网址。
日志文件是个很有用的东西,花点时间研究研究还是很有收获的,根据日志记录来修改 robots.txt 文件是最好不过的呢,我们可以很清楚的看到网页抓取机器人都抓取了我们的哪些网页,哪些是展示网页,哪些是非展示网页,并根据这个来修改 robots.txt 文件,经过修改后水石居的 robots.txt 文件如下:
#
# robots.txt for www.letuknowit.com
# V1.0
#User-agent: *
Disallow:/wp-
Allow:/wp-content/uploads
Disallow:/*/*/trackback
注:《robots.txt配置指南》
上面#号部分都是注释,加不加看自己心情吧!User-agent:*意味着对所有搜索引擎网页抓取机器人都有效,Disallow:/wp- 这个就是用于禁止网页抓取机器人抓取URL以http://www.letuknowit.com/wp-开头的网址,这个是从日志文件中分析出的结果,至于Allow:/wp-content/uploads 是因为这个目录中是上传的一些图片文件之类的,这个自己看着办吧。加上Disallow:/*/*/trackback是因为这个链接最终还是转到文章中,有重复抓取的嫌疑,因此一并屏蔽掉(例如:在浏览器中访问http://www.letuknowit.com/archives/24/trackback 最后还是转到 http://www.letuknowit.com/archives/24)。
对于刚刚安装好的博客,这些设置就已经足够了,后续随着网站的成长,再根据需要做修改,还是那句话,多研究日志文件,如果先麻烦的话,欢迎随时来水石居查看最新的robots.txt文件(>>传送门<<),我会随时进行更新的。
其实,我们也可以从另外一个方面来进行设置,就是我想让搜索引擎的网页抓取机器人抓取哪些网页呢?其实我们想要展示给搜索引擎的就是我们的博文,对于我目前使用的固定链接样式就是以“http://www.letuknowit.com/archives/”开头的网址是需要展示的网页(根据固定链接样式的不同可能不一样),因此我们还可以这样设置 robots.txt:
User-agent: *
Disallow:/ #先给你全禁止了Allow:/archives/ #让你看哪就看哪
Allow:… #这是省略哈,千万别这么写
原创文章请注明转载于知蚁博客,本文地址:http://www.letuknowit.com/archives/28
效果如何?
效果还不错!
好东西!
robots书写还是有学问