美文网首页
SEO优化:robots.txt协议文件相关

SEO优化:robots.txt协议文件相关

作者: xinyiyake | 来源:发表于2020-05-27 14:16 被阅读0次

1. 什么是robots.txt文件

用于指令搜索引擎禁止抓取网站某些内容或者指定抓取网站某些内容的。只有需要在禁止抓取某些内容时,robots.txt文件才有意义。robots.txt不存在或者是一个空文件意味着允许抓取网站上的所有内容。

2. robots.txt文件对网站有什么优点

  • 疾速增加网站权重和拜访量;
  • 制止某些文件被查找引擎索引,能够节约服务器带宽和网站拜访速度;
  • 为查找引擎供给一个简洁明了的索引环境

3. robots.txt文件由记录组成,记录之间以空行分开。

格式:<域>:<可选空格><域值><可选空格>

注意:记录之间应以空行分开。

4. robots.txt基本语法:

  • User-agent:指定规则适用于哪个蜘蛛(如:如百度是Baiduspider,谷歌是Googlebot或是其他搜索引擎)
  • Allow:允许抓取什么URL路径
  • Disallow:不允许抓取什么URL路径
  • 通配符*代表所有搜索引擎
  • 结束符$:表示以前面字符结束的u

注意:允许或禁止的目录或文件必须分开写,每个一行

5. 实例分析

a. 禁止所有搜索引擎抓取任何页面
User-agent: *
Disallow: /

b. 允许所有的搜索引擎访问网站的任何部分
User-agent: *
Disallow:

c. 仅禁止Googlebot访问您的网站
User-agent: Googlebot
Disallow: /
也可换为其他搜索引擎

d. 仅允许Googlebot访问您的网站
User-agent: Googlebot
Disallow:
也可换为其他搜索引擎

e. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
注意事项:1)目录要分别写。2)请注意最后要带斜杠。3)带斜杠与不带斜杠的区别。

f. 允许访问特定目录中的部分url:如:不抓取/ab/目录下的其他目录和文件,但允许抓取其中/cd/目录下的内容
User-agent: *
Disallow: /ab/
Allow: /ab/cd/
注:允许收录优先级要高于禁止收录。

g. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /?

h. 禁止搜索引擎抓取网站上所有图片
User-agent: *
Disallow: /.jpgDisallow: /*.jpeg
Disallow: /
.gifDisallow: /*.png
Disallow: /*.bmp$

i. 允许抓取以.htm为后缀的URL
User-agent: *
Allow: .htm$

j. 禁止抓取所有htm文件
User-agent: *
Disallow: /*.htm

6. 特殊情况

被robots文件禁止抓取的URL还是可能被索引并出现在搜索结果中。只要有导入链接指向这个URL,就会被搜索引擎搜索引擎识别出来有这个URL的存在,虽然不会抓取页面内容,但是索引库中会有这个URL的页面信息存在。通常以下面四种情况呈现出来。

(1)只显示URL,没有标题和描述
(2)显示开放目录或雅虎等重要目录收录的标题和描述
(3)导入链接的锚文字显示为标题和描述
(4)搜索引擎从其他地方获得的信息显示为标题和描述

相关文章

网友评论

      本文标题:SEO优化:robots.txt协议文件相关

      本文链接:https://www.haomeiwen.com/subject/facwahtx.html