python 爬虫算法、技巧

作者: 汪梓文 | 来源:发表于2017-06-16 17:56 被阅读0次

http://www.cnblogs.com/mafeng/p/5651323.html
技巧：https://sanwen8.cn/p/40f652M.html

开发笔记：

爬虫原理：
分为数据采集、处理、存储
传统爬虫是拿几个页面当初始页面，获取页面的url，当url到达指定数量，开始爬去
爬虫架构：
启动程序（提供需要分析的初始页面）：
负责把初始信息交由控制器处理
控制器（爬虫、多线程、爬去网页内容）：
爬取所有url页面。
算法：广度优先算法，深度优先算法
解析器（过滤空格、CSS、js、HTML标签）：
解析爬取下来的页面
资源库（数据存储：elasticsearch、redis、mysql) :
保存解析后的数据

小贴士：

关于为什么要使用DNS先解析URL：
在用户请求一个网页时输入域名，域名服务器会自动转换为IP地址，如果爬虫每次爬去的网页都在同一个域名下，那么每次解析的开销会非常大，浪费时间。
什么是深度优先算法，优点挖得深，缺点：
根据起始页获取来的一个链接一直跟下去，直到处理完当前这条线路，在专向下一个起始页的链接。

网友评论

本文标题：python 爬虫算法、技巧

本文链接：https://www.haomeiwen.com/subject/hcumqxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python 爬虫算法、技巧

开发笔记：

小贴士：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读