美文网首页
python 爬虫算法、技巧

python 爬虫算法、技巧

作者: 汪梓文 | 来源:发表于2017-06-16 17:56 被阅读0次

    http://www.cnblogs.com/mafeng/p/5651323.html
    技巧:https://sanwen8.cn/p/40f652M.html

    开发笔记:

    爬虫原理:
    分为数据采集、处理、存储
    传统爬虫是拿几个页面当初始页面,获取页面的url,当url到达指定数量,开始爬去
    爬虫架构:
    启动程序(提供需要分析的初始页面):
    负责把初始信息交由控制器处理
    控制器(爬虫、多线程、爬去网页内容):
    爬取所有url页面。
    算法:广度优先算法,深度优先算法
    解析器(过滤空格、CSS、js、HTML标签):
    解析爬取下来的页面
    资源库(数据存储:elasticsearch、redis、mysql) :
    保存解析后的数据

    小贴士:

    关于为什么要使用DNS先解析URL:
    在用户请求一个网页时输入域名,域名服务器会自动转换为IP地址,如果爬虫每次爬去的网页都在同一个域名下,那么每次解析的开销会非常大,浪费时间。
    什么是深度优先算法,优点挖得深,缺点:
    根据起始页获取来的一个链接一直跟下去,直到处理完当前这条线路,在专向下一个起始页的链接。

    相关文章

      网友评论

          本文标题:python 爬虫算法、技巧

          本文链接:https://www.haomeiwen.com/subject/hcumqxtx.html