原文链接https://cjh0613.gitee.io/blog/2020/02/27/%E5%88%86%E4%BA%AB%EF%BC%9A%E6%9C%89%E5%85%B3Python%E7%88%AC%E8%99%AB/
爬虫是什么?
网络爬虫是一种按照一定的规则自动地抓取网络信息的程序或者脚本。简单来说,网络爬虫就是根据一定的算法实现编程开发,主要通过URL实现数据的抓取和发掘。
随着大数据时代的发展,数据规模越来越庞大,数据类型繁多,但是数据价值普遍较低。
为了从庞大的数据体系里获取有价值的数据,从而延伸了网络爬虫、数据分析等多个职位。近几年,网络爬虫的需求更是井喷式地爆发,在招聘的供求市场上往往是供不应求,造成这个现状的主要原因就是求职者的专业水平低于需求企业的要求。
传统的爬虫有百度、Google、必应等搜索引擎,这类通用的搜索引擎都有自己的核心算法。
但是,通用的搜索引擎存在着一定的局限性:
(1)不同的搜索引擎对于同一个搜索会有不同的结果,搜索出来的结果未必是用户需要的信息。
(2)通用的搜索引擎扩大了网络覆盖率,但有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。
(3)随着网络上数据形式繁多和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。
因此,为了得到准确的数据,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,可根据设定的抓取目标有目的性地访问互联网上的网页与相关的URL,从而获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求全面的覆盖率,而是抓取与某一特定内容相关的网页,为面向特定的用户提供准备数据资源。
学习基础
HTTP协议
不多说
python基础
不多说
可自行找网课,或按下一行链接学习
可参考(现查):https://www.runoob.com/python3
JavaScript
涉及不多,不多说
html
简单识读,及使用浏览器开发者工具,不多说
可参考(现查):https://www.runoob.com/html/html-tutorial.html
excel处理
图形化软件,不多说
python库
爬虫库Requests
Requests是Python的一个很实用的HTTP客户端库,爬静态网页的利器,速度贼快,遇动态网页则见鬼
网页操控库selenium
自动操控浏览器,当然支持动态网页,速度较慢,满足一般需求
手机App数据爬取appium
类似selenium,操控手机,进行数据爬取
数据提取库beautifulsoup
前面的都是获取全部数据,这个是进行数据提取,挖出我们需要的数据
数据excel处理库openpyxl
数据保存及加工
爬虫框架Scrapy
小规模,数据量小,爬取速度不敏感,爬取网页玩转网页,用Requests库
中规模,数据规模较大,爬取速度敏感,爬取网站、爬取系列网站,Scrapy库
大规模,搜索引擎爬取,速度关键,用Requests库定制开发
强大的数据处理库pandas
不多说
强大的字符串处理库re
可用于数据提取,比beautifulsoup快,但是……不多说了
网友评论