2018-11-03-2-scrapy - 爬虫准备 - 虾米音

作者: Python岳 | 来源:发表于2018-11-03 10:09 被阅读0次

2018-11-03-2-scrapy - 爬虫准备 - 虾米音
虾米日记180925
虾米日记180808
如何使用淘宝商品信息采集爬虫-采集电商商品
抖音怎么玩？教你从0基础打造到10万关注的抖音。号
抖音爬虫教程，python爬虫采集反爬策略
虾米准备上小学了
虾米日记190521 | 想投资，要先做好准备
从音乐播放器说起
学渣讲爬虫之Python爬虫从入门到出门（第一讲）

爬一个网站，首先得分析目标内容在什么地方，目标内容的上一级内容如何获取。

图片为虾米网数据路线分析，中间相应的网址上方的数字为，代码编写时候的顺序，按照这个顺序去写爬虫代码，思路会清晰很多。

虾米网数据来源分析

为什么图里提到内容的时候，说是ajax？
一般来说需要点击按钮才能显示更多内容，或者需要下拉才能显示更多数据内容，这个一般为ajax——JavaScript+xml（具体看百科ajax）。一般数据都会在浏览器的开发者工具（F12），XHR里面，数据结构为json。
这里会有坑，有些数据需要登录后才能获取到数据，有些数据嘛，直接是在网站源代码中间，JS包含。

ajax数据，不懂的看这里：https://blog.csdn.net/weixin_36279318/article/details/79624353

先不管项目创建后的items要如何写，settings.py要如何设置，pipelines.py要怎么折腾。
你就先按我上面说的，分析一下网站结构。下一文，介绍一下xiami网（xiami.com）最终专辑页面的爬虫函数写法。