Python 爬取爱奇艺视频二十五万条数据分析为什么李诞不值得了

作者: 山禾家的猫 | 来源:发表于2018-12-11 15:45 被阅读9次

Python 爬取爱奇艺视频二十五万条数据分析为什么李诞不值得了
Python爬虫错误：UnicodeEncodeError
python爬虫实战案例，爬取爱奇艺VIP视频！
Python爬取爱奇艺52432条数据分析谁才是《奇葩说》的焦点
Python爬虫实战案例：爬取爱奇艺VIP
基于Python的影片数据爬取与数据分析毕业论文+项目源码+代
常用视频网站的视频下载方法分析
如何使用视频格式转换器将爱奇艺视频QSV格式转换MP4
爱奇艺转换器MP4
爬取奇安信认证培训平台课程

在《 Python 爬取爱奇艺 52432 条数据分析谁才是《奇葩说》的焦点人物？ )》这篇文章中，我们从爱奇艺爬取了 5 万多条评论数据，并对一些关键数据进行了分析，由此总结出了一些明面上看不到的数据，并将其直观地展现了出来，数据分析的妙处即在于此。

最终，我们从《奇葩说》的词云图中得出了李诞是为焦点人物的结论。但有小伙伴留言说道：“李诞是焦点人物，但那都是在骂他的”，看到这个笔者突然意识到，说着“人间不值得”的李诞《吐槽大会》开始声名鹊起，一方面是入了娱乐圈已成明星，却也饱受非议，作为《吐槽大会》第三季和《奇葩说》第五季的关键人物，我们是不是可以进行情感分析，从数万条的用户评论里找出广大观众眼中的李诞，以及主打辩论的奇葩说和以“吐槽文化”为切入点的《吐槽大会》的异同之处？

一、如何进行情感分析？

文本情感分析，又称为意见挖掘、倾向性分析等。简单而言，是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。

奇葩说的评论信息表达了人们的各种情感色彩和情感倾向性，通过对他们进行分析来了解大从舆论的看法。

在这里，我们使用 “ SnowNLP ” 进行分词和情感分析。

二、奇葩说的情感分析数据

注：本文中使用的奇葩说数据是上篇文章爬取的数据，数据文件地址： https://github.com/Pinned/ICanIBBData/blob/master/deal_data.db

先来看一下《奇葩说》的整体情感分析得分数据：

从上图可以看出来，正向情感的评论数要多于负向评论的数据，可见观众朋友还是喜欢奇葩说的。

好多人都说李诞是在被人骂，所以笔者在此对评论中包含李诞的数据进行了过滤（作者注：这样来看不一定准确，但也能从一个角度来看大体的数据情况），做了一下情感分析，先看图：

从这张图可以看出来，得分 0.5 以下的评论要比 0.5 分的多得多。其实单看李诞的这张图，对于负向情感评论是多是少没有直观的感受。于是，笔者又把剩下出现频率比较高的薛教授与詹青云的情感评分画了两张图，对比感受了一下：

通过这三张图的对比，感受到不一样的情感了吗？薛教授和詹青云的正向情感要远高于负向情感，而李诞的正向和负向两类情感则处于趋同状态。

详细代码为：

def emotionParser(title, *names): conn = conn = sqlite3.connect("deal_data.db") conn.text_factory = str cursor = conn.cursor() likeStr =""foriinrange(0, len(names)): likeStr = likeStr +" or content like \"%"+ names[i] +"%\" "iflikeStr =="": sql ="select content from realData where content != \"\" "else: sql ="select content from realData where content != \"\" "+ likeStrprintsql cursor.execute(sql)values= cursor.fetchall() sentimentslist = []foriteminvalues:content= item[0] senValue = SnowNLP(content.decode("utf-8")).sentiments sentimentslist.append(senValue)printcontentplt.hist(sentimentslist, bins=np.arange(0,1,0.01), facecolor="#4F8CD6") plt.xlabel("Sentiments Probability") plt.ylabel("Quantity") plt.title("Analysis of Sentiments for "+title) plt.show() cursor.close() conn.close()

观众朋友对李诞的负面情感有些高，那对他的评论具体究竟呈现着什么样的态势？接下来我们按如下步骤进行具体分析：

将评论数据中包含李诞、李蛋、蛋蛋的数据单独查出来；

使用 Jieba 对评论数据分词；

使用 WordCloud 生成词云分析数据生成词云图见下图，有关代码请参考《 Python 爬取爱奇艺 52432 条数据分析谁才是《奇葩说》的焦点人物？ 》。