爬虫协议Robots.txt-副业吧

什么是Robots.txt?

Robots.txt 是一个文件，它告诉搜索引擎蜘蛛不要抓取网站的某些页面或部分。大多数主要搜索引擎（包括谷歌、必应和雅虎）都认可和尊重Robots.txt协议。

为什么Robots.txt很重要？

大多数网站不需要robots.txt文件。

这是因为谷歌通常可以找到并索引你网站上的所有重要页面。

而且，它们不会索引不重要的页面或其他页面的重复版本。

您需要使用robots.txt文件的主要原因有三个。

阻止非公共页面：有时您的网站上有不希望索引的页面。例如，您可能有一个页面的暂存版本。或登录页面。这些页面需要存在。但你不希望随便有人碰到他们。在这种情况下，您可以使用robots.txt阻止搜索引擎爬虫和机器人访问这些页面。

最大化爬虫预算：如果您很难将所有页面编入索引，那么您可能会遇到爬虫预算问题。通过使用robots.txt阻止不重要的页面，Googlebot可以将更多的爬行预算用于真正重要的页面。

防止资源索引：使用元指令可以像Robots.txt一样有效防止页面被索引。然而，元指令对于多媒体资源（如PDF和图像）并不适用。这就是robots.txt发挥作用的地方。

Robots.txt告诉搜索引擎蜘蛛不要抓取网站上的特定页面。

您可以在Google搜索控制台中查看已索引的页面数。

如果该数字与您要索引的页数相匹配，则无需使用Robots.txt文件。

但是，如果这个数字高于您的预期（并且您发现了不应该索引URL），那么是时候创建一个robots.txt文件。

robot.txt 最佳实践

创建robot.txt文件

你的第一步是真正创造你的robot.txt文件。

作为一个文本文件，您实际上可以使用Windows记事本创建一个。

不管你最终如何创建robot.txt文件，格式完全相同：

User-agent: X
Disallow: Y

User-agent 是指特定的爬行机器人。

“Disallow”之后的所有内容都是您要阻止的页面或部分。

下面是一个示例：

User-agent: googlebot
Disallow: /images

这条规则会告诉Googlebot不要为网站的图像文件夹编制索引。

您还可以使用*告诉所有的爬虫机器人不要爬取图像文件夹。下面是一个示例：

User-agent: *
Disallow：/images

“*”告诉所有蜘蛛不要抓取您的图像文件夹。

这只是许多使用robot.txt的方法之一。这篇来自谷歌的指南提供了更多的信息，您可以使用不同的规则来阻止或允许机器人抓取您网站的不同页面。

让你的robots.txt文件易于发现

一旦你有了robots.txt文件，需要激活它！

从技术上讲，你可以放置你的robots.txt文件在网站的任何地方。

但为了让爬虫快速发现robots.txt，我建议将其放置在根目录下：

https://example.com/robots.txt

（请注意，robots.txt文件区分大小写。因此请确保在文件名中使用小写“r”）

检查错误

你的robots.txt设置是否正确很重要。一个错误，整个网站可能会被取消索引。

幸运的是，您不需要人工检查代码是否设置正确。谷歌有一个robots.txt测试工具，你可以使用它：

它会显示robots.txt文件…以及它发现的任何错误和警告：

如您所见，我们阻止蜘蛛爬行我们的WP管理页面。

我们也使用robots.txt来阻止WordPress自动生成的标签页的爬行（以限制重复内容）。

Robots.txt与元指令

你为什么要使用Robots.txt，您可以使用“noindex”元标记在页面级别阻止页面？

正如我前面提到的，noindex标签在视频和PDF等多媒体资源上很难实现。

此外，如果你有数千个页面要阻止，有时用Robots.txt阻止整个站点会更容易。而不是手动向每个页面添

noindex标记。

除了上面的三种情况，我建议使用元指令而不是robots.txt。它们更容易实施。而且发生灾难的可能性也很小（比如封锁整个网站）。

文章版权归作者所有，未经允许请勿转载。

THE END

SEO教程

爬虫协议Robots.txt

什么是Robots.txt?

为什么Robots.txt很重要？

robot.txt 最佳实践

创建robot.txt文件

让你的robots.txt文件易于发现

检查错误

什么是SEO?

SEO基础知识

2023 SEO最佳实践指南

选择关键词

长尾关键词实战

基于SEO的内容写作

1最新视频/图集去水印/步数/王者战力/红包封面等带流量主(小程序源码+教程)

2模型树特训营·第九期，做知识体系高效率学习看这个（14节课）

3抖音无人挂机玩法，4小时撸了1.1万音浪，AI美女换装跳舞直播，对新手小白友好，附教程和软件【揭秘】

4陌陌私域玩法，20的茶西卖200照样爆单【揭秘】

5Ai魔法绘画 Stable Diffusion专业课高效辅助Ui/运营作品集 0到精通系统课

6本地团购带货实战，同城生活行业流量获取与门店爆款打造全攻略

爬虫协议Robots.txt

什么是Robots.txt?

为什么Robots.txt很重要？

robot.txt 最佳实践

创建robot.txt文件

让你的robots.txt文件易于发现

检查错误

什么是SEO?

SEO基础知识

2023 SEO最佳实践指南

选择关键词

长尾关键词实战

基于SEO的内容写作

1最新视频/图集去水印/步数/王者战力/红包封面等 带流量主(小程序源码+教程)

2模型树特训营·第九期，做知识体系高效率学习看这个（14节课）

3抖音无人挂机玩法，4小时撸了1.1万音浪，AI美女换装跳舞直播，对新手小白友好，附教程和软件【揭秘】

4陌陌私域玩法，20的茶西卖200照样爆单【揭秘】

5Ai魔法绘画 Stable Diffusion专业课 高效辅助Ui/运营作品集 0到精通系统课

6本地团购带货实战，同城生活行业流量获取与门店爆款打造全攻略

1最新视频/图集去水印/步数/王者战力/红包封面等带流量主(小程序源码+教程)

5Ai魔法绘画 Stable Diffusion专业课高效辅助Ui/运营作品集 0到精通系统课