什么是Robots.txt?
Robots.txt 是一个文件,它告诉搜索引擎蜘蛛不要抓取网站的某些页面或部分。大多数主要搜索引擎(包括谷歌、必应和雅虎)都认可和尊重Robots.txt协议。
为什么Robots.txt很重要?
大多数网站不需要robots.txt文件。
这是因为谷歌通常可以找到并索引你网站上的所有重要页面。
而且,它们不会索引不重要的页面或其他页面的重复版本。
您需要使用robots.txt文件的主要原因有三个。
阻止非公共页面:有时您的网站上有不希望索引的页面。例如,您可能有一个页面的暂存版本。或登录页面。这些页面需要存在。但你不希望随便有人碰到他们。在这种情况下,您可以使用robots.txt阻止搜索引擎爬虫和机器人访问这些页面。
最大化爬虫预算:如果您很难将所有页面编入索引,那么您可能会遇到爬虫预算问题。通过使用robots.txt阻止不重要的页面,Googlebot可以将更多的爬行预算用于真正重要的页面。
防止资源索引:使用元指令可以像Robots.txt一样有效防止页面被索引。然而,元指令对于多媒体资源(如PDF和图像)并不适用。这就是robots.txt发挥作用的地方。
Robots.txt告诉搜索引擎蜘蛛不要抓取网站上的特定页面。
您可以在Google搜索控制台中查看已索引的页面数。
如果该数字与您要索引的页数相匹配,则无需使用Robots.txt文件。
但是,如果这个数字高于您的预期(并且您发现了不应该索引URL),那么是时候创建一个robots.txt文件。
robot.txt 最佳实践
创建robot.txt文件
你的第一步是真正创造你的robot.txt文件。
作为一个文本文件,您实际上可以使用Windows记事本创建一个。
不管你最终如何创建robot.txt文件,格式完全相同:
User-agent: X
Disallow: Y
User-agent 是指特定的爬行机器人。
“Disallow”之后的所有内容都是您要阻止的页面或部分。
下面是一个示例:
User-agent: googlebot
Disallow: /images
这条规则会告诉Googlebot不要为网站的图像文件夹编制索引。
您还可以使用*告诉所有的爬虫机器人不要爬取图像文件夹。 下面是一个示例:
User-agent: *
Disallow:/images
“*”告诉所有蜘蛛不要抓取您的图像文件夹。
这只是许多使用robot.txt的方法之一。这篇来自谷歌的指南提供了更多的信息,您可以使用不同的规则来阻止或允许机器人抓取您网站的不同页面。
让你的robots.txt文件易于发现
一旦你有了robots.txt文件,需要激活它!
从技术上讲,你可以放置你的robots.txt文件在网站的任何地方。
但为了让爬虫快速发现robots.txt,我建议将其放置在根目录下:
https://example.com/robots.txt
(请注意,robots.txt文件区分大小写。因此请确保在文件名中使用小写“r”)
检查错误
你的robots.txt设置是否正确很重要。一个错误,整个网站可能会被取消索引。
幸运的是,您不需要人工检查代码是否设置正确。谷歌有一个robots.txt测试工具,你可以使用它:
它会显示robots.txt文件…以及它发现的任何错误和警告:
如您所见,我们阻止蜘蛛爬行我们的WP管理页面。
我们也使用robots.txt来阻止WordPress自动生成的标签页的爬行(以限制重复内容)。
Robots.txt与元指令
你为什么要使用Robots.txt,您可以使用“noindex”元标记在页面级别阻止页面?
正如我前面提到的,noindex标签在视频和PDF等多媒体资源上很难实现。
此外,如果你有数千个页面要阻止,有时用Robots.txt阻止整个站点会更容易。而不是手动向每个页面添
noindex标记。
除了上面的三种情况,我建议使用元指令而不是robots.txt。它们更容易实施。而且发生灾难的可能性也很小(比如封锁整个网站)。