总结:学习爬虫

作者: 终生程序员小松哥 | 来源:发表于2019-03-17 10:46 被阅读7次

花了10天学习了下爬虫,总结下学习过程中和学习后的感受。

先推荐一本书

《Python 3网络爬虫开发实战 》,作者是一个还在读研究生的小哥哥崔庆才。我全靠把书上的例子敲一遍,来学习爬虫的。这本书的特点有两个:

1,详实的安装步骤:花了整整100页介绍了每个工具的在不同操作系统上的安装步骤;

2,介绍非常全面:涵盖了各种工具;除了网页抓取,还有手机终端抓取。

3,内容安排由浅到深,最后还介绍了分布式爬虫。

爬虫学习非常容易上手

我是零基础开始学习爬虫。之前没学习过Python、MongoDB、Docker。实际上编写爬虫的代码量很小,一个爬虫不超过100行代码就可以搞定。

爬虫的主要是各种工具和Python库的聚合使用。再加上现成而且成熟的Scrapy框架,使用很简单。

要把大象装冰箱总共分几步?三步呀。开门,装大象,关门

一个爬虫的步骤就是三步:抓取网页,抽取数据,数据清理,数据保存。

唯一的难度大概就是在环境了把所有工具都安装起来吧。我在Mac电脑、CentOS,unbuntu都分别安装了一遍环境。

每个程序员都要学下爬虫

爬虫的学习很简单,但是涵盖的知识宽度很广。从简单web应用、cookie,ip,破解http、css、js、ajax、服务部署、分布式概念。但是代码量很小,非常适合学习软件的同学跨入编程这一行,积累一定的知识宽度。

爬虫可以提高工作效率。你可以不必侵入系统,抓取数据;再把数据填充到另一个系统里。

爬虫也扩展了我的思路。以前我做过一款工具型App,因为没有内容和数据来源,思路一致局限在工具型App。有了爬虫技术后,可以通过自动化聚合一些有价值信息,通过技术驱动做些有轻内容的应用。

爬虫的进阶

简单的事情,要做到极致并不容易。这里有两个方向的事要去做:

1,提高爬取效率,减小爬取成本:如何更好的利用好自己的CPU和内存,单位成本有最高产出;如何破解反爬,保证服务的稳定性。

2,进一步延伸:对于获取的数据如何利用。进行大数据的分析,真正产生业务价值;对于数据的图形显示,帮助到业务的决策。

相关学习资料:

1,书:《Python 3网络爬虫开发实战 》

-- 最好的入门资料,没有之一。

2,框架:Scrapy

-- 最通用最强大的框架,没有之一。

-- GitHub上的相关awesome系列:https://github.com/AccordBox/awesome-scrapy

3,很多现成工程:https://github.com/facert/awesome-spider

-- 很多网站的爬虫都现成,做一个爬虫前先去找一找。

爬虫技能的特点

这个一个对动手能力有很要求的技能;但是代码量很少,这不我都10天没写代码。所以学习爬虫之余还是要多找机会写写代码。

相关文章

  • 资料

    Python爬虫系列(一)初期学习爬虫的拾遗与总结(11.4更) Python爬虫学习系列教程 Python爬虫学习手册

  • 3天玩转爬虫,爬取网页数据

    通过实战讲解如何编写爬虫,在实战中学习,最快的学习方法。自己总结的爬虫模板,网络数据任意爬,精华! 3天玩转爬虫,...

  • 如何在一周内学会爬虫?本文详解,百分之九十的人都能用这个学习计划

    python爬虫如何学习?汇集众多程序员学习经验总结出的爬虫最适合大多数人的学习路线分享! 爬虫的一周学习计划: ...

  • Python实战计划学习笔记:week2_1 在MongoDB中

    学习爬虫第二周,对Mongodb进行学习。 代码如下: 运行效果: 数据库情况: 总结: 复习了网页爬虫的相关知识...

  • 爬虫学习总结

    断断续续学了一点爬虫,算是入了个门,很多时候对一些基本点还是不够熟悉,特此来总结归纳一下 分析网页数据包 数据来源...

  • 总结:学习爬虫

    花了10天学习了下爬虫,总结下学习过程中和学习后的感受。 先推荐一本书 《Python 3网络爬虫开发实战 》,作...

  • 假期总结及后半段安排

    总结 考试过后在学习上完成了js,jquery的学习,爬虫学习至Scrapy框架,Scrapy还有scrawl...

  • 爬虫入门学习总结

    最近忙着开学,很久没有写博客,今天难得有时间,就总结一下这段时间对爬虫的学习,以及分享一些比较好的免费入门教程。 ...

  • Python3爬虫总结

    最进一直在学习python爬虫,经过一个多星期的学习,对爬虫基本了解了一点,但是还是很基础,做个总结,加深印象。 ...

  • Python开发简单爬虫(慕课网学习资料总结)

    本文是在慕课网学习Python简单爬虫后做以总结。 视频地址 一、简单爬虫架构 运行流程 1、调度器询问URL管...

网友评论

    本文标题:总结:学习爬虫

    本文链接:https://www.haomeiwen.com/subject/gevymqtx.html