robots文件基本定义及内容设置

分类栏目:web资讯

4726

为什么robots.txt文件很重要

robots.txt文件(也称为漫游器排除协议或标准)是一个文本文件,用于告诉搜索引擎爬虫能抓取网站上的哪些页面,不能抓取哪些页面。 搜索引擎访问网站。都会先检查robots.txt中的说明。

假设搜索引擎找到了以下示例robots.txt文件:

这是robots.txt文件的基本框架。*表示robots.txt文件适用于所有访问该网站的爬虫。Disallow(禁止)之后的斜线告诉爬虫不要访问该站点上的任何页面。

您可能想知道为什么阻止Web机器人访问其站点。毕竟,SEO的主要目标之一是让搜索引擎轻松地抓取您的网站,从而提高排名。

如果搜索引擎对您的网站进行爬网,它将对您的每个页面进行爬网。如果网页很多,爬虫将需要一段时间来对其进行抓取,这可能会对排名产生负面影响。

这是因为爬虫也会有一个“抓取预算”,分为两部分。首先是爬网速率限制,然后是爬网需求

基本上,抓取预算是“ 爬虫可以并且想要抓取的URL数量”。所以我们应该让爬虫抓取最有价值的页面。

一般在网站URL后面/robots.txt会看到默认的文件。例:www.xxxxxxxx.com/robots.txt

例如,如果您访问该网站(neilpatel.com)的robots.txt文件,则会看到该文件不允许登录页面(wp-admin)。
所以我们应当熟悉robots.txt文件中使用的某些语法。

禁止所有蜘蛛访问网站的任何部分,格式如下: 

  User-agent:* 

  Disallow:/ 

禁止所有蜘蛛访问网站的某几个部分,比如下例中禁止访问001、002、003目录: 

  User-agent:* 

  Disallow:/001/ 

  Disallow:/002/ 

  Disallow:/003/ 

禁止某个搜索引擎蜘蛛的访问,比如下例中的百度蜘蛛: 

  User-agent:BadBot 

  Disallow:/ 

只允许某个蜘蛛的访问,再例举百度蜘蛛: 

  User-agent:BadBot 

  Disallow: 

  User-agent:* 

  Disallow:/ 


robots.txt 文件在线生成工具   www.baisheng999.com/practicaltools/robots/