从《【何同学】我拍了一张600万人的合影...》弹幕分析中，获取

作者: 小张Python | 来源:发表于2020-08-23 12:50 被阅读0次

从《【何同学】我拍了一张600万人的合影...》弹幕分析中，获取
被小破站上一个UP主实力圈粉
粉丝：君子之交淡如水
我和王东先生及书法
放假喽
我俩自拍了一张合影
拍了证件照
我们那个时候（下）
须弥芥子，都是山中苍生（三）
去大城市追逐梦想，还是留在小城市享受安逸？

这篇博文很早就打算写了，但因为懒一直拖到现在，先交代一下博文选材背景：8月2号，B 站数码 Up 主 老师好我叫何同学 更新了一个视频《【何同学】我拍了一张600万人的合影... 》(离他的上一个视频更新已经一个多月)，来纪念频道成立三周年

虽说在何同学提前一天的预告中就猜到这个视频的质量一定不会差，但看完之后，内心只有俩字牛逼！，这个视频真的真的惊艳到我了，赞叹于他视频制作水准，佩服于他对粉丝的用心；在看视频中看到一条弹幕，觉得评价地很中肯：等一个多月看到这个视频、值了！

关于这个视频还是很推荐，截至到8月8日已经在B站已经播放了 880万次，链接我放在下方，有兴趣或者想二刷的小伙伴可以刷一下

而本文将是围绕这个视频的弹幕进行采集，并做简单的分析；在接下来的部分中，文章将分为三个部分展开：

1，数据采集部分；介绍一种采集 B 视频弹幕的方法；
2，数据可视化并分析；根据评论时间分布制成可视化图表，分别以弹幕发布时间、视频各阶段弹幕量占比、弹幕数量时间走势等几个角度做简单分析；
3，弹幕词云可视化：将采集得到的文本制成词云图；

B站弹幕采集

1，这里先介绍一下 B 站视频弹幕的采集方法，本文用的是 Python 脚本作为抓取工具，首先打开抓取的视频网页，这里以何同学的这个视频为例，找到右边的弹幕列表

1.png

2，按 F12 打开开发者工具，依次点击弹幕列表、查看历史弹幕、选择日期 ，随后找到开发者模式中的 history?... 链接（图中的右边箭头所示，若找不到刷新一下页面，重新按照上面步骤操作一下即可）；

2.png

3，2 中的链接就是最终我们需要的链接，仔细观察后会发现这个链接有两个关键参数构成，一个 oid, 一个 date ，oid 表示视频 ID 比较容易查找，date 表示日期，可通过 datetime 来构造;

3.png

4.png

4，构造 3 中的链接之后，用常规的爬取方法(requests + Beautifulsoup) 即可，

5.png

主要代码部分如下：

def get_duration_time(start_date1,end_date,video_id):    # 日期格式转换    start_date = datetime.datetime.fromisoformat(start_date1)    end_date = datetime.datetime.fromisoformat(end_date)    dateltime = datetime.timedelta(days=1)    while start_date <= end_date:        startdate_format =  start_date.strftime("%Y-%m-%d")        download_date(startdate_format,video_id)        start_date = start_date +  dateltimedef download_date(timedate,video_id):    # 传入日期、视频id 进行数据爬取    shipin_url = 'https://api.bilibili.com/x/v2/dm/history?type=1&oid={0}&date={1}'.format(video_id,timedate)    print("正在抓取弹幕网页", shipin_url)    response = requests.get(url = shipin_url,headers = headers)    response.encoding = 'utf-8'    soup = BeautifulSoup(response.text,'lxml')    for i in soup.find_all('d'):        locate = re.findall(r'p="(.*?)">(.*?)</d>',str(i))        file.write(str(locate[0][0]))        file.write(',')        file.write(str(str(locate[0][-1])))        file.write("\n")    time.sleep(2) # 增加时间间隔，防止爬取太频繁;