第一单元小结
通用代码框架
try - except
网络爬虫引发的问题
爬取网页,玩转网页 requests
爬取网站,scrapy,中规模,数据规模较大
爬取全网,爬取全网,只可能订制开发
骚扰问题 服务器资源消耗
内容层面法律风险
个人隐私泄露
来源审查:判断user-agent进行限制
检查来访http协议头的user-agent领域,只相应浏览器或友好爬虫的访问。
发布公告:robots协议
告知所有爬虫网站的爬取策略,要求爬虫遵守。
robots协议(robots exclusion standard)
简单语法
user-agent 对于该名称的爬虫
disallow
如何遵守robots协议
类人类行为可不参考robots协议
网友评论