美文网首页
【爬虫成长之路】(一)爬虫成长之路系列文章阅读指导

【爬虫成长之路】(一)爬虫成长之路系列文章阅读指导

作者: keep1234quiet | 来源:发表于2021-04-19 22:29 被阅读0次

    本系列文章共十篇:

    【爬虫成长之路】(一)爬虫系列文章导读
    【爬虫成长之路】(二)各篇需要用到的库和工具
    【爬虫成长之路】(三)【大众点评】selenium爬虫
    【爬虫成长之路】(四)【大众点评】selenium登录+requests爬取数据
    【爬虫成长之路】(五)【大众点评】浏览器扫码登录+油猴直接爬取数据
    【爬虫成长之路】(六)【大众点评】mitmproxy中间人代理爬虫
    【爬虫成长之路】(七)【大众点评】PC微信小程序+requests爬取数据
    【爬虫成长之路】(八)【大众点评】安卓APP爬虫

    一、爬虫系列教程共十篇,可分为如下六个部分:

    序号 章节 介绍
    1 第一章 对本系列文章做一个总体上的介绍,便于读者了解篇章结构,按需阅读
    2 第二章 介绍本系列文章需要用到的技术和工具,以及相关的技术教程
    3 第三~七章 对大众点评WEB端所采用的一系列爬虫技术
    4 第八章 大众点评PC端小程序爬虫
    5 第九章 大众点评APP端爬虫
    6 第十章 对实战环节用的文章中用到的加解密算法&反爬技术做一个总结,读者日后开发网站时也可借鉴

    二、系列文章说明

    爬虫技术涉及到的知识非常多,文章不会对所有爬虫技术做细致全面的讲解,所以本系列的文章也不适合零基础的同学,零基础的同学可以先学完基础知识后再来阅读本系列文章。

    • 本系列文章适合以下读者:

      1. 有了解过爬虫技术,会Python的基础语法,知道HTTP通信过程;
      2. 写过简单的静态页面,希望技术能进一步提高;
      3. 熟悉Java、JavaScript基本语法;
      4. 有安卓逆向基础;
    • 本系列文章不适合以下读者

      1. 完全不了解计算机网络相关知识,尤其是HTTP通信过程(参考学习:1.HTTP 协议入门2.关于HTTP协议,一篇就够了3.计算机网络自学指南,简直太全了!);
      2. 不会Python基础语法(参考学习:1.Python 基础语法2.Python基础);
    • 为什么选择大众点评作为爬取对象

      1. 大众点评用户群体活跃,善于发表评价,所以数据总量足够满足用于机器学习等任务;
      2. 大众点评的反爬技术比其他网站更为复杂,具有代表性;

    三、什么是爬虫技术

    爬虫是指用程序模拟浏览器向服务器发起请求的程序。爬虫技术并不是什么很厉害的技术,但是随着爬虫和反爬技术对抗升级,现在的需要爬取到有价值的数据变得十分困难,尤其是机器学习需要用到大量数据的时候,购买第三方的数据十分昂贵且不一定会卖。所以对需要用到数据分析和机器学习的同学来说,学习爬虫技术还是有一定的必要性的。

    四、阅读声明

    1. 技术从来都是一把双刃剑,使用爬虫技术可以获取到自己想要获取到的数据,但绝不可在短时间内向对方服务器发起大量请求,这会导致对方服务器崩溃,数据爬取的过程中不可影响对方服务器正常运行。对于需要大量数据的同学应该尽量拉长时间,慢慢爬取。
    2. 文中仅对爬虫技术以及爬取思路进行讲解,不透露程序中的加密参数的相关秘钥,防止被人滥用,造成对方服务器宕机。
    3. 本系列文章主要是为想学习爬虫技术的同学提供当前最新的教程,爬虫文章的时效性太强了,所以写文章的时候还可以用的方法,可能过些时日就行不通了,加上大众点评更新频率很高,这种这种情况更为明显,所以如果失效了大家学习下思路就好。
    4. 爬取到的数据仅供自己学习研究使用。

    FQA

    如果你在学习过程中遇到任何问题,可在评论中留言、私信或发送邮件给我,看到会回复

    注:

    1. 如果您不希望我在文章提及您文章的链接,或是对您的服务器造成了损害,请联系我对文章进行修改;
    2. 本文仅爬取公开数据,不涉及到用户隐私;

    相关文章

      网友评论

          本文标题:【爬虫成长之路】(一)爬虫成长之路系列文章阅读指导

          本文链接:https://www.haomeiwen.com/subject/oypilltx.html