一、教学内容
1、知识点
- flask写接口
- charles使用复习
2、音乐爬虫
- 抓取歌手的信息
- 通过专辑抓取全量数据
- 通过专辑实现增量抓取
- 获取音乐的真实地址
- 提供获取音乐真是地址的接口
3、分布式
- 深入理解分布式的概念
- 将音乐爬虫改为分布式爬虫
上节课作业:
1、实现一个函数,可以输入歌手的url,获取歌手的详细信息,比如https://y.qq.com/n/yqq/singer/002J4UUk29y8BY.html
2、将现在的直接存储数据到mongodb改为通过http接口发送给flask server,通过flask server存储到mongodb
S1 : 抓取专辑列表页,将专辑信息存在album_info表,将专辑任务存在album_task表
S2:从album_task表获取album url,把歌曲url存在 song_task
S3: 从song_task表取出url,把歌曲信息放在song_info
status:
0 还没抓取
1 正在抓取
2 抓取成功
3 抓取失败
4 非法任务
网友评论