爬虫协议Robots.txt

什么是Robots.txt?

Robots.txt 是一个文件,它告诉搜索引擎蜘蛛不要抓取网站的某些页面或部分。大多数主要搜索引擎(包括谷歌、必应和雅虎)都认可和尊重Robots.txt协议。

为什么Robots.txt很重要?

大多数网站不需要robots.txt文件。

这是因为谷歌通常可以找到并索引你网站上的所有重要页面。

而且,它们不会索引不重要的页面或其他页面的重复版本。

您需要使用robots.txt文件的主要原因有三个。

阻止非公共页面:有时您的网站上有不希望索引的页面。例如,您可能有一个页面的暂存版本。或登录页面。这些页面需要存在。但你不希望随便有人碰到他们。在这种情况下,您可以使用robots.txt阻止搜索引擎爬虫和机器人访问这些页面。

最大化爬虫预算:如果您很难将所有页面编入索引,那么您可能会遇到爬虫预算问题。通过使用robots.txt阻止不重要的页面,Googlebot可以将更多的爬行预算用于真正重要的页面。

防止资源索引:使用元指令可以像Robots.txt一样有效防止页面被索引。然而,元指令对于多媒体资源(如PDF和图像)并不适用。这就是robots.txt发挥作用的地方。

Robots.txt告诉搜索引擎蜘蛛不要抓取网站上的特定页面。

您可以在Google搜索控制台中查看已索引的页面数。

Google Search Console – Indexed

如果该数字与您要索引的页数相匹配,则无需使用Robots.txt文件。

但是,如果这个数字高于您的预期(并且您发现了不应该索引URL),那么是时候创建一个robots.txt文件。

robot.txt 最佳实践

创建robot.txt文件

你的第一步是真正创造你的robot.txt文件。

作为一个文本文件,您实际上可以使用Windows记事本创建一个。

不管你最终如何创建robot.txt文件,格式完全相同:

User-agent: X
Disallow: Y

User-agent 是指特定的爬行机器人。

Disallow”之后的所有内容都是您要阻止的页面或部分。

下面是一个示例:

User-agent: googlebot
Disallow: /images

这条规则会告诉Googlebot不要为网站的图像文件夹编制索引。

您还可以使用*告诉所有的爬虫机器人不要爬取图像文件夹。 下面是一个示例:

User-agent: *
Disallow:/images

“*”告诉所有蜘蛛不要抓取您的图像文件夹。

这只是许多使用robot.txt的方法之一。这篇来自谷歌的指南提供了更多的信息,您可以使用不同的规则来阻止或允许机器人抓取您网站的不同页面。

Useful rules

让你的robots.txt文件易于发现

一旦你有了robots.txt文件,需要激活它!

从技术上讲,你可以放置你的robots.txt文件在网站的任何地方。

但为了让爬虫快速发现robots.txt,我建议将其放置在根目录下:

https://example.com/robots.txt

(请注意,robots.txt文件区分大小写。因此请确保在文件名中使用小写“r”)

检查错误

你的robots.txt设置是否正确很重要。一个错误,整个网站可能会被取消索引。

幸运的是,您不需要人工检查代码是否设置正确。谷歌有一个robots.txt测试工具,你可以使用它:

Robots.txt – Testing results

它会显示robots.txt文件…以及它发现的任何错误和警告:

Robots.txt – Errors

如您所见,我们阻止蜘蛛爬行我们的WP管理页面。

我们也使用robots.txt来阻止WordPress自动生成的标签页的爬行(以限制重复内容)。

Robots.txt与元指令

你为什么要使用Robots.txt,您可以使用“noindex”元标记在页面级别阻止页面?

正如我前面提到的,noindex标签在视频和PDF等多媒体资源上很难实现。

此外,如果你有数千个页面要阻止,有时用Robots.txt阻止整个站点会更容易。而不是手动向每个页面添

noindex标记。

除了上面的三种情况,我建议使用元指令而不是robots.txt。它们更容易实施。而且发生灾难的可能性也很小(比如封锁整个网站)。

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
相关推荐
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片