http://www.cnblogs.com/mafeng/p/5651323.html
技巧:https://sanwen8.cn/p/40f652M.html
开发笔记:
爬虫原理:
分为数据采集、处理、存储
传统爬虫是拿几个页面当初始页面,获取页面的url,当url到达指定数量,开始爬去
爬虫架构:
启动程序(提供需要分析的初始页面):
负责把初始信息交由控制器处理
控制器(爬虫、多线程、爬去网页内容):
爬取所有url页面。
算法:广度优先算法,深度优先算法
解析器(过滤空格、CSS、js、HTML标签):
解析爬取下来的页面
资源库(数据存储:elasticsearch、redis、mysql) :
保存解析后的数据
小贴士:
关于为什么要使用DNS先解析URL:
在用户请求一个网页时输入域名,域名服务器会自动转换为IP地址,如果爬虫每次爬去的网页都在同一个域名下,那么每次解析的开销会非常大,浪费时间。
什么是深度优先算法,优点挖得深,缺点:
根据起始页获取来的一个链接一直跟下去,直到处理完当前这条线路,在专向下一个起始页的链接。
网友评论