2018-11-03 -1- scrapy - 「前言」
2018-11-03 -2- scrapy - 爬虫准备 - 虾米音乐网内容分析
2018-11-03 -3- scrapy新建项目,以及编写目标内容爬虫代码
2018-11-05 -4- scrapy - settings.py相关修改调整
2018-11-08 -5- scrapy - 爬虫主代码文件编写
学习Python的时候,总感觉自己需要学的东西太多了:《Python核心编程》、《简明Python》、《用Python写爬虫》等等书籍……的PDF,而且多数是看到函数、类相关的知识,就直接迷糊,没有看了。特别是新版的《Python核心编程》的内容排版,更加接近手册,不像循循善诱的知识科普,对新人已经不再友好。
自学Python的方向,和多数人一样,是学爬虫,哪想到学爬虫还得学很多乱七八糟的东西。得学CSS(xpath-css选择器),还得学数据库相关,还得学登陆,学post/get,学验证码,学MD5相关(非框架爬虫,数据md5,后续查询效率高)等等,感觉技能树分支太多,技能点都不够了。
于是在浪费了大量的时间后,决定还是学习爬虫框架(scrapy)来的快,到真正上手的时候,确实比自己用BS4、urllib、requests来的要快的多。
本系列以虾米网(xiami.com)为目标网站,不讲解登陆(直接使用登陆后的cookie,丢给scrapy直接使用),不讲解反爬虫,只讲解采集歌手专辑中,单曲页面中各种信息。这中间会包含讲解如何采集数据来源的问题。
网友评论