美文网首页
爬虫|B站《啥是佩奇》弹幕词云

爬虫|B站《啥是佩奇》弹幕词云

作者: kami1护 | 来源:发表于2019-01-23 11:31 被阅读0次

    《啥是佩奇》小猪佩奇过大年 

    ↑↑↑↑↑↑↑↑↑↑↑↑上面是一个B站视频链接,但是貌似没啥用???↑↑↑↑↑↑↑↑↑↑↑↑↑

    1、源数据获取

    B站弹幕有专门的API,只需要获取到对应的cid就行

    弹幕

    编写爬虫获取弹幕,保存为csv文件

    爬虫

    有意思的地方是,df.to_csv('peiqi.csv',encoding='utf_8')会乱码。在程序中能够正常输出中文,但是导出到文件后使用excel打开时出现中文乱码是因为excel能够正确识别用gb2312、gbk、gb18030或utf_8 with BOM (utf_8_sig)编码的中文,如果是utf_8 no BOM(utf_8)编码的中文文件,excel打开会乱码。

    弹幕CSV

    总弹幕有1756条,但是API只显示1000条,因此只爬取了1000条。只作练习,不多纠结,1000就1000吧

    2、词云展示

    使用pandas读取弹幕CSV文件,jieba分词,最后用wordcloud 生成词云matplotlib展示。

    词云

    原图片

    背景图片

    词云展示

    peiqi

    词频top50的分词

    “某些 上来” 什么鬼?“上来 说话我求” ??“说话我求 某些”???

    证明stopwords很有必要!!!

    额,顺便问一下,“硬核” 啥意思?

    相关文章

      网友评论

          本文标题:爬虫|B站《啥是佩奇》弹幕词云

          本文链接:https://www.haomeiwen.com/subject/ypodjqtx.html