您的位置:知蚁博客 » 搜索引擎 » 如何阻止 Googlebot 抓取您网站上的内容

如何阻止 Googlebot 抓取您网站上的内容

作者: 发布时间:2011-03-23 分类:搜索引擎 标签: 1,723人浏览

  如果您有不希望在 Google 搜索结果中显示的网页或其他内容,也即是所谓的拦截Google,可以通过将内容放入受密码保护的目录、使用robots.txt文件以及noindex元标记的方式实现。

1、将内容放入受密码保护的目录

  Googlebot 和其他信息采集软件无法访问这些受密码保护的目录。这是阻止Googlebot 和其他信息采集软件抓取您网站上的内容并将其编入索引的最简单、最有效的方式。如果您使用的是 Apache 网络服务器,可以编辑 .htaccess 文件来为服务器上的目录提供密码保护。此外,网络中有许多可轻松实现这个功能的工具。

2、使用 robots.txt 控制对您服务器上的文件和目录的访问

  robots.txt 文件就像一个电子的“禁止擅入”(No Trespassing) 标志。它会告诉 Googlebot 和其他信息采集软件不应抓取服务器上的哪些文件和目录。 但是要使用robots.txt 文件,就必须拥有对主机根目录的访问权限,作为一名站长应该是很容易做到的。

  有一点需要注意的是,即使使用 robots.txt 文件拦截信息采集软件使之无法抓取您网站上的内容,Google 也可以通过其他方式找到该网站并将它添加到索引中。例如,有另一个网站链接到了您的网站,因此您的网页网址及其他公开的信息等就有可能会出现在 Google 搜索结果中。

  所有正规的漫游器都会遵循 robots.txt 文件中的指令,但是还有一些漫游器可能会以不同的方式解译这些指令。因此,对于机密类的信息,Google还是建议采用密码保护的方式(请参见1)。

3、使用 noindex 元标记

  如果看到某一网页上有 noindex 元标记,Google 就会将此网页从搜索结果中完全移除,不管是否还有其他网页与其相链接。如果网页内容当前出现在Google的索引中,会在下次抓取此内容时将其删除。(要加速删除过程,可以使用 Google 网站管理员工具中的删除网址工具)

  由于其他搜索引擎可能会以不同的方式解译此指令,因此,指向相关网页的链接可能仍会显示在搜索结果中。此外,由于Googlebot必须抓取到网页才能看到 noindex 标记,因此在极少数情况下 Googlebot 可能会看不到 noindex 元标记并会将其忽略掉(例如,自您添加了此标记之后,Googlebot一直未再抓取过此网页)。

下面是noindex元标记的使用方法:

要防止所有漫游器将网站中的网页编入索引,请将以下元标记添加到网页的 <head> 部分:

<meta name=”robots” content=”noindex”>
要允许其他漫游器将该网页编入索引而只阻止 Google 的漫游器,请将以下元标记置入 <head>部分:

<meta name=”googlebot” content=”noindex”>

4、结语

  以上就是三种阻止 Googlebot 抓取您网站上的内容的方法,其实只要放到网上了,想不让人(尤其是类似Googlebot的网页抓取机器人)看到实在是太难,要真有机密信息还是不要放到网上的好。
原创文章请注明转载于知蚁博客,本文地址:http://www.letuknowit.com/archives/25

相关文章

0访客评论

我来说说

(必须)

(必须,保密)

你确定你已经看过文章了?
取消

无觅相关文章插件,快速提升流量