这可能意味着网络上

Unlock business potential through effective first dataset management solutions.
Post Reply
kexej28769@nongnue
Posts: 250
Joined: Tue Jan 07, 2025 4:42 am

这可能意味着网络上

Post by kexej28769@nongnue »

也许更重要的是,只有 79.87% 的主页在桌面和移动机器人访问时具有相同的链接。仅仅因为找到相同数量的链接并不意味着它们实际上是相同的链接。考虑这一点很重要,因为链接是机器人用来在网络上查找内容的路径。不同的路径意味着不同的索引。

在主页链接中,外部链接下降了 7.4%。一些最重要的链 开曼群岛 WhatsApp 数据 接发生根本性转变,因为主页链接通常具有链接资产。有趣的是,从百分比来看,最大的“输家”是社交网站。回想起来,网站从其移动版本中删除一种常见类型的链接(即社交共享按钮)似乎是合理的,因为它们通常包含在页面的“镶边”而不是内容中,并且“镶边”经常会更改以适应移动版本。

按百分比计算,损失最高的依次为:

脸书网
那么,在抓取网页时,5-15% 的链接差异有什么大不了的呢?事实证明,这些数字偏向于拥有大量链接但没有移动版本的网站。然而,这些链接大多数都是主要的导航链接。当您爬得更深时,您会发现相同的链接。但偏离的那些具有完全不同的二级爬行链接。

二阶矩阵
现在这就是数据变得有趣的地方。当我们继续使用受移动机器人与桌面机器人发现的链接影响的爬行集来爬行网络时,我们将继续获得越来越不同的结果。但他们能走多远?让我们从尺寸开始。虽然我们抓取了相同数量的主页,但第二层结果根据在这些原始主页上找到的链接数量而有所不同。因此,移动爬网集有 977,840 个唯一 URL,而桌面爬网集有 1,053,785 个。我们已经可以看到一个不同的索引正在形成——桌面索引要大得多。让我们深入挖掘一下。



我希望您花点时间认真关注这张图表。请注意,共有三种类型:

移动独特:蓝色条代表移动机器人找到的独特项目。
桌面独特:橙色条代表桌面机器人找到的独特项目。
共享:灰色条代表双方发现的对象。
另请记住,有四个测试:
Post Reply