1、企业产生数据:用户产生数据。
2、数据管理公司。
3、政府数据-人口普查。
4、第三方数据公司。
5、爬虫。
爬虫 -----爬取数据的程序
网页特征
1、每个网页都有不同的URL(统一资源定位符)
2、都由html构成。
3、都用http(s)协议传输。
爬虫怎么抓取网页:
1、定位你要的URL地址。
2、然后下载网页内容。
3、提取有用的数据。有其他URL,继续爬。
为啥用python做爬虫?(垃圾回收机制)
PHP天生干后端。爬虫效率低。
java:是python爬虫最大对手,java代码量很大。
c/c++:几乎是最高效率的,学习难度大,不建议使用。付出与产出不成正比。
python:语法较简单,效率高,框架多,在Scrapy,分布式Scrapy-redis。
爬虫与反爬虫与反反爬虫
1、User-Agent:判断你是不是一个爬虫,以后爬取时最好带上UA。
2、数据加密:把解密程序找到。
3、封IP:后端有个中间件。(IP代理池)
网友评论