回顾一个月的爬虫学习

作者: 苦逼李 | 来源:发表于2018-02-19 17:28 被阅读28次

    学习爬虫凑凑合合也将近一个月了吧,从一开始的一无所知(除了Python)到现在可以爬取一些网站的数据,进步也是能够看到的。作为一个回顾,我在这里把爬虫学习的路径再理一遍,也供想要学习爬虫的伙伴参考参考。

    首先学习爬虫没有知乎上大家所说的那样简单,或许我们都有一个误解,听到别人所谓的简单然后自己也以为如此,这实际上是很天真的(自个先打脸了( ̄ε(# ̄))。现在看来,最基本的爬虫包含(但不限于)下面几个知识块:

    0.网页三剑客(HTML、JS、CSS)+ Python基础

    1.HTTP协议(如何获取网页信息)

    通过urllib、requests库可以简化请求网页的过程

    2.筛选方式+解析库(用于从网页信息中筛选出需要的内容)

    常用解析库包含BeautifulSoup,lxml等

    筛选方式包含正则、Xpath、CSS Select等

    3.格式化信息(如何把获取到的信息加工成便与查看或储存的格式)

    需要掌握列表、字符串、字典等数据结构(包含属性和方法的熟练运用)

    一些高级的Python特性,比如生成器等

    4.储存信息

    包含两大类:文件存储,数据库存储

    文件存储又包含TXT文件、CSV文件、Json文件,需要熟悉这几种文件的读写方式

    数据库存储包含关系型和非关系型,其复杂度高于文件存储,掌握更费时,具体有:

    关系型:MySQL

    非关系型:MonggoDB、Redis

    回头来看,除了Python语言本身之外,上面的任一一块知识都是很“硬”的(Python也很重要),需要花上大把的时间才能熟练掌握。现在看来我是用了较短的时间,通过小项目熟悉了写爬虫需要用到的知识块,做到了心中有数,好处在于心里有底了,减少了茫然,但麻烦就是许多知识掌握的还比较薄弱。不过再怎么说,这也证明了项目指引学习的方式是一种有效的入门手段。

    最后再感慨下,安排好各个知识的学习次序,遇到问题知道怎样解决而不是一下子懵逼,能够在纷繁的知识中做到有条不紊的渐进,这些都是作为一个CS-learner的必要但不容易习得的自我修养啊。学习之路还很漫长,还需努力(ง •_•)ง

    相关文章

      网友评论

      本文标题:回顾一个月的爬虫学习

      本文链接:https://www.haomeiwen.com/subject/swzitftx.html