美文网首页
学习笔记 2018-10-22

学习笔记 2018-10-22

作者: Alf018 | 来源:发表于2018-10-23 00:51 被阅读0次

    第一单元小结

    通用代码框架
    try - except

    网络爬虫引发的问题
    爬取网页,玩转网页 requests
    爬取网站,scrapy,中规模,数据规模较大
    爬取全网,爬取全网,只可能订制开发

    骚扰问题 服务器资源消耗
    内容层面法律风险
    个人隐私泄露

    来源审查:判断user-agent进行限制
    检查来访http协议头的user-agent领域,只相应浏览器或友好爬虫的访问。

    发布公告:robots协议
    告知所有爬虫网站的爬取策略,要求爬虫遵守。

    robots协议(robots exclusion standard)

    简单语法
    user-agent 对于该名称的爬虫
    disallow

    如何遵守robots协议
    类人类行为可不参考robots协议

    第二单元小结

    相关文章

      网友评论

          本文标题:学习笔记 2018-10-22

          本文链接:https://www.haomeiwen.com/subject/dvgwzftx.html