如何阻止 Googlebot 抓取您网站上的内容

作者：知蚁　发布时间：2011-03-23　分类：搜索引擎　标签：Googlebot　1,723人浏览

　　如果您有不希望在 Google 搜索结果中显示的网页或其他内容，也即是所谓的拦截Google，可以通过将内容放入受密码保护的目录、使用robots.txt文件以及noindex元标记的方式实现。

1、将内容放入受密码保护的目录

　　Googlebot 和其他信息采集软件无法访问这些受密码保护的目录。这是阻止Googlebot 和其他信息采集软件抓取您网站上的内容并将其编入索引的最简单、最有效的方式。如果您使用的是 Apache 网络服务器，可以编辑 .htaccess 文件来为服务器上的目录提供密码保护。此外，网络中有许多可轻松实现这个功能的工具。

2、使用 robots.txt 控制对您服务器上的文件和目录的访问

　　robots.txt 文件就像一个电子的“禁止擅入”(No Trespassing) 标志。它会告诉 Googlebot 和其他信息采集软件不应抓取服务器上的哪些文件和目录。但是要使用robots.txt 文件，就必须拥有对主机根目录的访问权限，作为一名站长应该是很容易做到的。

　　有一点需要注意的是，即使使用 robots.txt 文件拦截信息采集软件使之无法抓取您网站上的内容，Google 也可以通过其他方式找到该网站并将它添加到索引中。例如，有另一个网站链接到了您的网站，因此您的网页网址及其他公开的信息等就有可能会出现在 Google 搜索结果中。

　　所有正规的漫游器都会遵循 robots.txt 文件中的指令，但是还有一些漫游器可能会以不同的方式解译这些指令。因此，对于机密类的信息，Google还是建议采用密码保护的方式（请参见1）。

3、使用 noindex 元标记

　　如果看到某一网页上有 noindex 元标记，Google 就会将此网页从搜索结果中完全移除，不管是否还有其他网页与其相链接。如果网页内容当前出现在Google的索引中，会在下次抓取此内容时将其删除。（要加速删除过程，可以使用 Google 网站管理员工具中的删除网址工具）

　　由于其他搜索引擎可能会以不同的方式解译此指令，因此，指向相关网页的链接可能仍会显示在搜索结果中。此外，由于Googlebot必须抓取到网页才能看到 noindex 标记，因此在极少数情况下 Googlebot 可能会看不到 noindex 元标记并会将其忽略掉（例如，自您添加了此标记之后，Googlebot一直未再抓取过此网页）。

下面是noindex元标记的使用方法：

要防止所有漫游器将网站中的网页编入索引，请将以下元标记添加到网页的 <head> 部分：

4、结语

　　以上就是三种阻止 Googlebot 抓取您网站上的内容的方法，其实只要放到网上了，想不让人（尤其是类似Googlebot的网页抓取机器人）看到实在是太难，要真有机密信息还是不要放到网上的好。
原创文章请注明转载于知蚁博客，本文地址：http://www.letuknowit.com/archives/25

如何阻止 Googlebot 抓取您网站上的内容

相关文章

0访客评论

我来说说