robots文件基本定义及内容设置

为什么robots.txt文件很重要

robots.txt文件（也称为漫游器排除协议或标准）是一个文本文件，用于告诉搜索引擎爬虫能抓取网站上的哪些页面，不能抓取哪些页面。搜索引擎访问网站。都会先检查robots.txt中的说明。

假设搜索引擎找到了以下示例robots.txt文件：

这是robots.txt文件的基本框架。*表示robots.txt文件适用于所有访问该网站的爬虫。Disallow（禁止）之后的斜线告诉爬虫不要访问该站点上的任何页面。

您可能想知道为什么阻止Web机器人访问其站点。毕竟，SEO的主要目标之一是让搜索引擎轻松地抓取您的网站，从而提高排名。

如果搜索引擎对您的网站进行爬网，它将对您的每个页面进行爬网。如果网页很多，爬虫将需要一段时间来对其进行抓取，这可能会对排名产生负面影响。

这是因为爬虫也会有一个“抓取预算”，分为两部分。首先是爬网速率限制，然后是爬网需求

基本上，抓取预算是“ 爬虫可以并且想要抓取的URL数量”。所以我们应该让爬虫抓取最有价值的页面。

一般在网站URL后面/robots.txt会看到默认的文件。例：www.xxxxxxxx.com/robots.txt

例如，如果您访问该网站（neilpatel.com）的robots.txt文件，则会看到该文件不允许登录页面（wp-admin）。
所以我们应当熟悉robots.txt文件中使用的某些语法。

禁止所有蜘蛛访问网站的任何部分，格式如下：

　　User-agent:*

　　Disallow:/

禁止所有蜘蛛访问网站的某几个部分，比如下例中禁止访问001、002、003目录：

　　User-agent:*

　　Disallow:/001/

　　Disallow:/002/

　　Disallow:/003/

禁止某个搜索引擎蜘蛛的访问，比如下例中的百度蜘蛛：

　　User-agent:BadBot

　　Disallow:/

只允许某个蜘蛛的访问，再例举百度蜘蛛：

　　User-agent:BadBot

　　Disallow:

　　User-agent:*

　　Disallow:/

robots.txt 文件在线生成工具 www.baisheng999.com/practicaltools/robots/

DABAN RP主题是一个优秀的主题，极致后台体验，无插件，集成会员系统
网站模板库 » robots文件基本定义及内容设置

分享到：