本系列文章共十篇:
【爬虫成长之路】(一)爬虫系列文章导读
【爬虫成长之路】(二)各篇需要用到的库和工具
【爬虫成长之路】(三)【大众点评】selenium爬虫
【爬虫成长之路】(四)【大众点评】selenium登录+requests爬取数据
【爬虫成长之路】(五)【大众点评】浏览器扫码登录+油猴直接爬取数据
【爬虫成长之路】(六)【大众点评】mitmproxy中间人代理爬虫
【爬虫成长之路】(七)【大众点评】PC微信小程序+requests爬取数据
【爬虫成长之路】(八)【大众点评】安卓APP爬虫
一、爬虫系列教程共十篇,可分为如下六个部分:
序号 | 章节 | 介绍 |
---|---|---|
1 | 第一章 | 对本系列文章做一个总体上的介绍,便于读者了解篇章结构,按需阅读 |
2 | 第二章 | 介绍本系列文章需要用到的技术和工具,以及相关的技术教程 |
3 | 第三~七章 | 对大众点评WEB端 所采用的一系列爬虫技术 |
4 | 第八章 | 大众点评PC端小程序 爬虫 |
5 | 第九章 | 大众点评APP 端爬虫 |
6 | 第十章 | 对实战环节用的文章中用到的加解密算法 &反爬技术 做一个总结,读者日后开发网站时也可借鉴 |
二、系列文章说明
爬虫技术涉及到的知识非常多,文章不会对所有爬虫技术做细致全面的讲解,所以本系列的文章也不适合零基础
的同学,零基础的同学可以先学完基础知识后再来阅读本系列文章。
-
本系列文章
适合
以下读者:- 有了解过爬虫技术,会Python的基础语法,知道HTTP通信过程;
- 写过简单的静态页面,希望技术能进一步提高;
- 熟悉Java、JavaScript基本语法;
- 有安卓逆向基础;
-
本系列文章
不适合
以下读者:- 完全不了解计算机网络相关知识,尤其是HTTP通信过程(参考学习:1.HTTP 协议入门、 2.关于HTTP协议,一篇就够了、3.计算机网络自学指南,简直太全了!);
- 不会Python基础语法(参考学习:1.Python 基础语法、2.Python基础);
-
为什么选择大众点评作为爬取对象
- 大众点评用户群体活跃,善于发表评价,所以数据总量足够满足用于机器学习等任务;
- 大众点评的反爬技术比其他网站更为复杂,具有代表性;
三、什么是爬虫技术
爬虫
是指用程序模拟浏览器向服务器发起请求的程序。爬虫技术并不是什么很厉害的技术,但是随着爬虫和反爬技术对抗升级,现在的需要爬取到有价值的数据变得十分困难,尤其是机器学习需要用到大量数据的时候,购买第三方的数据十分昂贵且不一定会卖。所以对需要用到数据分析和机器学习的同学来说,学习爬虫技术还是有一定的必要性的。
四、阅读声明
- 技术从来都是一把双刃剑,使用爬虫技术可以获取到自己想要获取到的数据,但绝不可在短时间内向对方服务器发起大量请求,这会导致对方服务器崩溃,数据爬取的过程中不可影响对方服务器正常运行。对于需要大量数据的同学应该尽量拉长时间,慢慢爬取。
- 文中仅对爬虫技术以及爬取思路进行讲解,不透露程序中的加密参数的相关秘钥,防止被人滥用,造成对方服务器宕机。
- 本系列文章主要是为想学习爬虫技术的同学提供当前最新的教程,爬虫文章的时效性太强了,所以写文章的时候还可以用的方法,可能过些时日就行不通了,加上大众点评更新频率很高,这种这种情况更为明显,所以如果失效了大家学习下思路就好。
- 爬取到的数据仅供自己学习研究使用。
FQA
如果你在学习过程中遇到任何问题,可在评论中留言、私信或发送邮件给我,看到会回复
注:
- 如果您不希望我在文章提及您文章的链接,或是对您的服务器造成了损害,请联系我对文章进行修改;
- 本文仅爬取公开数据,不涉及到用户隐私;
网友评论