网络爬虫
- 网络蜘蛛、网络机器人,抓取网络数据的程序
- 用Python程序去模仿人去访问网站,模仿的越逼真越好
- 通过有效的大量数据分析市场走势、公司决策
企业获取数据的方式
- 公司自有数据
- 第三方数据平台购买
- 爬虫爬取数据
Python做爬虫优势
- 请求模块、解析模块丰富成熟,强大的scrapy框架
- PHP:对多线程、异步支持不太好
- JAVA:代码笨重,代码量很大
- C/C++:虽然效率高,但是代码成型很慢
爬虫分类
通用网络爬虫
搜索引擎引用,需要遵守robots协议
聚焦网络爬虫
自己写的爬虫程序:面向主题的爬虫、面向需求的爬虫
爬取数据步骤
- 确定需要爬取的URL地址
- 通过HTTP/HTTPS协议来获取相应的HTML页面
- 提取HTML页面有用的数据
- 所需数据,保存
- 页面中有其他的URL,继续 第2步
网友评论