美文网首页
2018-11-03-2-scrapy - 爬虫准备 - 虾米音

2018-11-03-2-scrapy - 爬虫准备 - 虾米音

作者: Python岳 | 来源:发表于2018-11-03 10:09 被阅读0次

    爬一个网站,首先得分析目标内容在什么地方,目标内容的上一级内容如何获取。

    图片为虾米网数据路线分析,中间相应的网址上方的数字为,代码编写时候的顺序,按照这个顺序去写爬虫代码,思路会清晰很多。

    虾米网数据来源分析

    为什么图里提到内容的时候,说是ajax?
    一般来说需要点击按钮才能显示更多内容,或者需要下拉才能显示更多数据内容,这个一般为ajax——JavaScript+xml(具体看百科ajax)。一般数据都会在浏览器的开发者工具(F12),XHR里面,数据结构为json。
    这里会有坑,有些数据需要登录后才能获取到数据,有些数据嘛,直接是在网站源代码中间,JS包含。

    ajax数据,不懂的看这里:https://blog.csdn.net/weixin_36279318/article/details/79624353

    先不管项目创建后的items要如何写,settings.py要如何设置,pipelines.py要怎么折腾。
    你就先按我上面说的,分析一下网站结构。下一文,介绍一下xiami网(xiami.com)最终专辑页面的爬虫函数写法。

    相关文章

      网友评论

          本文标题:2018-11-03-2-scrapy - 爬虫准备 - 虾米音

          本文链接:https://www.haomeiwen.com/subject/anxkxqtx.html