Robots协议

作者: 天道酬勤_FUN | 来源:发表于2017-04-18 11:15 被阅读0次

Robots Exclusion Standard 网络爬虫排除标准

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行。
形式：在网站根目录下的robots.txt文件。

案例

# 注释：*代表所有，/代表根目录
User-agent: *
Disallow: /

网络爬虫：自动或人工识别robots.txt，再进行内容爬取。
约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，

本文标题：Robots协议

本文链接：https://www.haomeiwen.com/subject/aojfzttx.html

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！