爬虫简介
这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多,适合刷解析技能的熟练度,所以高手勿进
python版本:python2或Python3 两个版本的代码都有
编码工具:pycharm
数据存储:mysql
爬虫结构:广度爬虫
想要学习Python?Python学习交流群:984632579满足你的需求,资料都已经上传群文件,可以自行下载!
爬虫思路:
先获取需要采集信息的公司:
1、从数据库中获取
2、获取字段:etid,etname
3、将获取的数据存储的状态表中
4、从状态表中获取数据,并更新状态表
拼接初始URL:
1、将etname和初始url进行拼接,获得初始网址
2、将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
请求解析初始一级页面:
1、验证查询的公司是否正确(??)
2、获取二级页面url
3、将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
请求解析二级页面:
1、获取的信息待定
将公司的信息存储到数据库中:
1、建表
2、存储信息
看一下部分的结果图:
GitHub地址:https://github.com/huquan1996/PythonSpider/tree/master/Item4%EF%BC%9Aspider_tianyancha
网友评论