美文网首页
bilibili完结番剧分区数据抓取(第一

bilibili完结番剧分区数据抓取(第一

作者: Houtasu | 来源:发表于2018-08-08 23:09 被阅读0次
    image.png
    想知道b站建站以来所有完结番剧分区下的视频播放数据么?想知道哪个番剧的收藏高,哪个的硬币数多么?本篇教程就叫你如何获取b站视频的数据。
    https://github.com/HOUTASU/crawler_pycharm/blob/master/code/bilibili.py
    上面就是b站完结分区的网页了。它在番剧大分区下。
    image.png
    可以看到每页有20个是视频信息。有up主,播放量,评论数等信息。然后一共有816页,那么就有16K+个视频了。
    那么我们要分析这个网页,然后爬完这816个分页么?
    并不!正常的爬虫思路确实是这样的。但是b站是个爬虫友好的网站,它提供的专门的爬虫接入接口。
    image.png
    https://zhuanlan.zhihu.com/p/35359905
    感谢yxIIIc大佬提供的教程,以及uupers-b站爬虫项目组整理的b站接口的相关信息。不过yxIIIc大佬用的是Mathematica(MMA)做的爬取全站的视频数据,然而我并不会MMA,所以还以用python写吧。
    https://github.com/uupers/BiliSpider/wiki
    在这个网页右侧的[Bilibili API 二级分区视频分页数据(投稿时间逆序)]链接中,我们可以看到b站视频数据接口的信息。它是一个json文件。
    image.png
    而我们需要用到的就是这部分数据了。
    那我们的任务就转而获取这些json文件,然后提取出想要的数据。由于数据不是很多,就直接写到csv文件里吧。

    相关文章

      网友评论

          本文标题:bilibili完结番剧分区数据抓取(第一

          本文链接:https://www.haomeiwen.com/subject/ajufbftx.html