【通用技术】2个月精通Python爬虫——3大爬虫框架+6场实战

作者: 阿里云大学百科 | 来源:发表于2019-05-30 15:12 被阅读120次

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动的抓取信息的程序或者脚本。

网络爬虫是互联网上进行信息采集的通用手段，在互联网的各个专业方向上都是不可或缺的底层技术支撑。本课程从爬虫基础开始，全面介绍了Python网络爬虫技术，并且包含各种经典的网络爬虫项目案例。

分类：

网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

通用网络爬虫

聚焦网络爬虫

增量式网络爬虫

Deep Web 爬虫

爬虫有什么用呢？

你要找工作，想知道哪个岗位当前最热门，爬取分析一下招聘网站的岗位信息便知一二；

世界杯球迷分布情况，爬取分析一下淘宝各球队球衣销量，或者相关论坛或贴吧的一些数据即可；

想知道知乎大神们关注领域情况，可以爬取分析一下大神们的回答；

……

有了数据才能做数据分析，互联网为你提供了海量的数据来源，就看你有没有水平获得这些数据。Python是实现爬虫最佳的选择，几行代码就能实现基本的爬虫，学习简单且很容易获得更大成就感。

爬虫技术是入门Python最好的方式（没有之一），也是大数据分析、机器学习的基础，掌握基本的爬虫后，再去学习其他Python技能，会更得心应手。

如何掌握爬虫技术