您的位置:知蚁博客 » 搜索引擎 » 什么是Googlebot?

什么是Googlebot?

作者: 发布时间:2011-03-23 分类:搜索引擎 标签: 1,909人浏览

  Googlebot 是 Google 的网页抓取机器人(有时称为“信息采集软件”)。所谓抓取就是 Googlebot 发现新网页和更新的网页并将这些网页添加到 Google 索引中的过程。

  Google使用许多计算机来提取(或“抓取”)网站上的大量网页。Googlebot 使用算法确定抓取过程:由计算机程序确定要抓取的网站、抓取频率以及从每个网站抓取的网页数量。

  进行抓取时,Googlebot 会先查看以前的抓取过程所生成的一系列网页网址,包含网站站长提供的站点地图数据。Googlebot 在访问其中的每个网站时,会检测各网页上的链接(SRC 和 HREF),并将这些链接添加到要抓取的网页列表。它会记录新出现的网站、现有网站的更新以及无效链接,并据此更新 Google 索引。

Googlebot如何访问您的网站?

  Googlebot 对大多数网站的平均访问频率为几秒钟一次。但是,如果网络有延迟,则访问频率可能会在短时间内有所提高。一般来说,Googlebot 每次只会下载各网页的一份副本。如果发现 Googlebot 多次下载同一网页,可能是因为抓取工具停止后又重新启动所致。

  Googlebot 分布在多台计算机上,以便提高性能并随着网络规模的扩大而扩大。此外,为了降低带宽占用,Google会在几台计算机上运行多个抓取工具,而这些计算机通常位于他们正在网络中编制索引的网站附近。因此,您的日志可能会显示来自 google.com 上的多台计算机的访问记录,而且所有计算机使用的都是用户代理 Googlebot。

  Google的目标是:每次访问您的网站时,以您服务器的带宽所允许的速度尽可能多地抓取网页。

能阻止 Googlebot 抓取网站上的内容吗?

  答案是肯定的!具体如何进行阻止,请参看《如何阻止 Googlebot 抓取您网站上的内容》,此外还可以使用 robots.txt 阻止Googlebot访问您服务器上的文件和目录。

我的网站被正确抓取了吗?

  Googlebot 通过跟踪指向网页的各种链接抓取网站。在网站站长工具的抓取错误页中,会列出 Googlebot 抓取网站时所发现的全部问题。作为网站站长,最好定期的查看这些抓取错误,以识别您网站上出现的所有问题并及时的做出调整,以使自己的网站有个好的排名。

  如果您觉得本文难以理解,那很有可能您还没有在使用Google网站站长工具
原创文章请注明转载于知蚁博客,本文地址:http://www.letuknowit.com/archives/24

相关文章

0访客评论

我来说说

(必须)

(必须,保密)

你确定你已经看过文章了?
取消

无觅相关文章插件,快速提升流量