美文网首页零基础-一起学爬虫
【零基础学爬虫】爬虫实战:爬取猫眼Top100电影

【零基础学爬虫】爬虫实战:爬取猫眼Top100电影

作者: 大菜鸟_ | 来源:发表于2019-03-25 14:23 被阅读7次

    准备

    之前讲解过Requests库的使用,以及正则表达式基础。今天我们将两者结合起来,实现第一个爬虫实战:使用Requests和正则表达式爬取猫眼电影的Top100

    爬取流程

    (1)目标分析
    打开网址:https://maoyan.com/board/4?offset=0,发现100部一篇一共分了10页,每一页10部影片:涵盖影片的名字,主演,时间以及评分。
    经过分析发现,分页的控制具体体现在url中:

    • 第一页的url:https://maoyan.com/board/4?offset=0
    • 第二页的url:https://maoyan.com/board/4?offset=10
    • 第三页的url:https://maoyan.com/board/4?offset=20
    • ......
      规律很简单,下一页的offset是在前一页的基础上加了10,具体实现时是需要使用range函数产出0到90,间隔10的序列,然后拼接到url上就可以了。
      (2)页面代码的分析
      右键->检查:

      页面源码发现:每一部影片的信息都在"<dd>...</dd>"标签中,所以在正则表达式中只需要匹配到dd标签,然后提取响应的数据即可,正则也比较容易。值得注意的是,评分分了两部分:一个是整数部分,另外一个是小数部分。
      (3)流程框架

    源码和结果图:

    源码

    扫描下方二维码,公众号菜鸟名企梦后台发送关键词“top100”即可获取本文的完整源码和详细程序注释

    扫码关注,及时获取更多精彩内容。(博主今日头条大数据工程师)

    公众号菜鸟名企梦专注:互联网求职面经javapython爬虫大数据等技术、海量资料分享
    公众号菜鸟名企梦后台发送“csdn文库下载”即可免费领取【csdn】和【百度文库】下载服务;
    公众号菜鸟名企梦后台发送“资料”:即可领取5T精品学习资料java面试考点java面经总结,以及几十个java、大数据项目资料很全,你想找的几乎都有

    相关文章

      网友评论

        本文标题:【零基础学爬虫】爬虫实战:爬取猫眼Top100电影

        本文链接:https://www.haomeiwen.com/subject/ytwmvqtx.html