长话短说,就像谚语中说的蝴蝶扇动翅膀最终会引发飓风一样,robots.txt 中的微小变化会阻止某些机器人并允许其他机器人进入,最终导致与 Google 实际看到的结果截然不同的结果。
你知道我不会让你失 VNpay 数据库 望的。让我们做一些研究。让我们根据Quantcast分析互联网上排名前 1,000,000 的网站,并确定哪些机器人被阻止、阻止频率如何以及可能产生什么影响。
方法论
该方法相当简单。
下载 Quantcast Top Million
如果所有顶级百万网站都提供 robots.txt,请下载
解析robots.txt,判断首页和其他页面是否可用
收集与被屏蔽网站相关的链接数据
收集与被阻止站点相关的现场页面总数。
报告爬虫之间的差异。
阻止的网站总数
第一个也是最容易报告的指标是阻止单个爬虫(Moz、Majestic、Ahrefs)同时允许 Google 的网站数量。大多数阻止主要 SEO 爬虫之一的网站都会阻止所有爬虫。他们只是制定 robots.txt 以允许主要搜索引擎同时阻止其他机器人流量。越低越好。
条形图显示 robots.txt 中阻止每个 SEO 工具的网站数量
在分析的网站中,有 27,123 个网站被阻止使用 MJ12Bot(Majestic),32,982 个网站被阻止使用 Ahrefs,25,427 个网站被阻止使用 Moz。这意味着在主要的行业爬虫中,Moz 是最不可能被允许使用 Googlebot 的网站拒绝的。但这到底意味着什么呢?
那么,我们做得怎么样
-
- Posts: 207
- Joined: Tue Dec 24, 2024 4:56 am