美文网首页
学习笔记 2018-10-22

学习笔记 2018-10-22

作者: Alf018 | 来源:发表于2018-10-23 00:51 被阅读0次

第一单元小结

通用代码框架
try - except

网络爬虫引发的问题
爬取网页,玩转网页 requests
爬取网站,scrapy,中规模,数据规模较大
爬取全网,爬取全网,只可能订制开发

骚扰问题 服务器资源消耗
内容层面法律风险
个人隐私泄露

来源审查:判断user-agent进行限制
检查来访http协议头的user-agent领域,只相应浏览器或友好爬虫的访问。

发布公告:robots协议
告知所有爬虫网站的爬取策略,要求爬虫遵守。

robots协议(robots exclusion standard)

简单语法
user-agent 对于该名称的爬虫
disallow

如何遵守robots协议
类人类行为可不参考robots协议

第二单元小结

相关文章

网友评论

      本文标题:学习笔记 2018-10-22

      本文链接:https://www.haomeiwen.com/subject/dvgwzftx.html