美文网首页
爬虫就业冲刺20180804

爬虫就业冲刺20180804

作者: xsren2019 | 来源:发表于2019-11-25 17:36 被阅读0次

一、教学内容

1、知识点

  • flask写接口
  • charles使用复习

2、音乐爬虫

  • 抓取歌手的信息
  • 通过专辑抓取全量数据
  • 通过专辑实现增量抓取
  • 获取音乐的真实地址
  • 提供获取音乐真是地址的接口

3、分布式

  • 深入理解分布式的概念
  • 将音乐爬虫改为分布式爬虫

上节课作业:
1、实现一个函数,可以输入歌手的url,获取歌手的详细信息,比如https://y.qq.com/n/yqq/singer/002J4UUk29y8BY.html
2、将现在的直接存储数据到mongodb改为通过http接口发送给flask server,通过flask server存储到mongodb

S1 : 抓取专辑列表页,将专辑信息存在album_info表,将专辑任务存在album_task表
S2:从album_task表获取album url,把歌曲url存在 song_task
S3: 从song_task表取出url,把歌曲信息放在song_info

status:
0 还没抓取
1 正在抓取
2 抓取成功
3 抓取失败
4 非法任务

相关文章

  • 爬虫就业冲刺20180804

    一、教学内容 1、知识点 flask写接口 charles使用复习 2、音乐爬虫 抓取歌手的信息 通过专辑抓取全量...

  • 爬虫就业冲刺20180728

    今日讲课内容: 面试经验分享 音乐爬虫 面试经验分享 教学内容:分享面试经验和常见的面试题目。 教学目标:让学生能...

  • 爬虫就业冲刺20180811

    一、教学内容 1、知识点 charles使用复习 2、音乐爬虫 获取音乐的真实地址 提供获取音乐真实地址的接口 做...

  • 爬虫就业冲刺20180818

    一、教学内容 1、使用scrapy实现之前的音乐爬虫 教学内容: 复习之前的音乐爬虫项目 scrapy使用进阶 使...

  • 【丰盛日记】122

    20180804 晚安

  • 《鼻涕虫的故事•雷雨》

    20180804,云南屏边。

  • 【原创】(大圣)央视《开讲啦》牛文文演讲观后感

    20180804 CCTV-1综合频道 《开讲啦》 20180804 本期演讲者:牛文文来源:央视网2018年0...

  • 20180804

    今天阳历生日哇,一大早,通信公司各银行发来短信,祝我生日快乐,可惜一直过的农历生日。一把年纪也无所谓这些东西了。 ...

  • 20180804

    凉快不过一天,台风过后,今儿个便尤其闷热,厉害的是,我居然在没有空调的空间只靠一个电扇就加班了十二个小时,也是要小...

  • 20180804

    事实:儿子在网上提前买了电影票,天气下雨了。我埋怨孩子不听我的晚点买票 感受:心情烦躁,心生埋怨 想法:我发现自己...

网友评论

      本文标题:爬虫就业冲刺20180804

      本文链接:https://www.haomeiwen.com/subject/yopjwctx.html