与它们在源代码中出现的顺序相同。我们通过“”提交了 ,然后等待。由于该域名没有传入链接,因此它没有或至少没有可忽略的 。如果 的说法是正确的, 很快就会停止抓取。 前 小时抓取的页面 从图中可以看出, 开始以每小时大约 个节点的速度抓取网站。 三个小时后,它的抓取速度减慢到每小时大约 页,并保持了几个月。为了验证这个结果,我们对另外两个域名进行了同样的测试。这两次测试的结果几乎相同。唯一的区别是 访问开始时的峰值较低。 已抓取页面总数 站点地图的影响 在测试过程中,站点地图显示出了影响抓取率的非常有用的工具。
我们添加了一个包含 个未抓取页面的站点地图(索引级别 )。 将通过站点地图添加到 的页面放在抓取队列的顶部。这意味着这些页面在 级页面之前被抓取。 但真正引人注目的是抓取率的大幅提升。起初,访问量稳定在每小时 页的速度。一旦通过网站 克罗地亚数字数据 管理员中心上传站点地图,抓取工具就会加速到每小时大约 页。在短短几天内,它达到了每小时 页的峰值。抓取工具最初平均每小时访问 个页面,后来增长到平均每小时 个页面,增幅不少于 。抓取率的提升并不止于站点地图中包含的页面。其它 级和 级页面也利用了抓取率的增加。 每小时抓取的页面数 谷歌突然使用更多抓取能力来抓取网站,这真是太不可思议了。
当我们提交站点地图时,抓取队列已满是 页面。谷歌可能非常重视提交的站点地图。 包含站点地图的已抓取页面总数 这让我们想到了 的说法。仅 天后, 就抓取了该网站的约 个页面。如果这与它的 (为 )成比例,则意味着它将在短短 天内抓取 为 的网站的 个页面。请记住, 是指数级的。换句话说,这意味着即使您拥有网络上最大的网站,您也不必担心您的 。 换句话说,不要简单地接受 所说的一切。 链接数量 说:“…你真的可以超过 推荐的每页 个链接,如果 为 ,你可以考虑 个链接” 每页 个链接的建议一直是一个热门话题,尤其是对于拥有大量页面的网站。