Robots Exclusion Standard 网络爬虫排除标准
作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。
形式:在网站根目录下的robots.txt文件。
案例
京东的Robots协议
百度的Robots协议
新浪新闻的Robots协议
qq的Robots协议
qq新闻的Robots协议
国家教育部的Robots协议(无robots协议)
Robots协议基本语法
# 注释:*代表所有,/代表根目录
User-agent: *
Disallow: /
Robots的遵守方式
Robots协议的使用
网络爬虫:自动或人工识别robots.txt,再进行内容爬取。
约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,
网友评论