《无问西东》豆瓣短评分析

《无问西东》豆瓣短评分析

作者: 三猫后端 | 来源:发表于2018-01-29 12:46 被阅读76次

《无问西东》豆瓣短评分析
《无问西东》豆瓣短评分析［二］
无问西东短评
《无问西东》短评
那些《无问西东》教给我们的教育，您悟到了吗？
用python分析豆瓣短评(二)
立德立言，无问西东
西东无问，无问西东。
《无问西东》无问西东
《无问西东》无问西东

原文链接：《无问西东》豆瓣短评分析

微信公众号：机器学习养成记搜索添加微信公众号：chenchenwings

电影《无问西东》讲述了四代人清华人，在矛盾与期待中不断找寻自我、砥砺前行的故事。上映后得到了广泛的关注，也引发了强烈的讨论。本文首先通过爬虫技术，从豆瓣上获得相关短评内容与打分，然后观察打分分布，划分正负偏好，最后进行分词与关键词提取，观察正向、负向偏好之间关键词差异。”

爬取豆瓣短评

寻找链接

首先在浏览器打开豆瓣主页，搜索无问西东电影，可以看到下面的短评板块，点击“更多短评”可以进入短评的专属页面，此页面是一个GET类的url：“https://movie.douban.com/subject/6874741/comments?start=0&limit=20&sort=new_score&status=P&percent_type=”，点击“后页”，观察url的变化情况，可以发现每一页显示20条短评，通过改变url中start取值，可以转换到不同的页数，即第二页短评url中start参数取值为20，因此，我们就找到了需要爬取的内容链接。

定位标签

使用Chrome开发者工具，发现短评的内容在p标签中，打分信息较为复杂，首先要找到class_＝comment-item的div标签，再找到里面class＝rating的span标签，并根据标签内容进行分数对应。

代码实现

豆瓣做了相关限制，非登录状态下只能获取每个电影的前220条。因此这里以抓取前220页短评内容为例，获取短评内容及打分。

将文本与打分信息生成dataframe，并保存为csv文件，方便后续使用。

打分分布情况

得到了220条短评的打分数据，首先通过绘制柱状图，观察各分数的比例分布。

可以看到，打2分的最多，其次为4分。这里我们假设，4分、5分为正向偏好，1分、2分为负向偏好，3分为中立，下面分别对正向偏好和负向偏好做关键词提取，观察两者间差别。

分词与关键词提取

分词

中文分词分为基于规则和基于统计两大类，jieba分词包结合了两类方法，可以较方便的实现分词。在分词的同时，进行删除停用词的操作。

关键词提取

jieba实现了TF-IDF和TextRank两种关键词提取算法，指定关键词个数、词性，可返回关键词和相应权重。

第一列代表了负向偏好的关键词和权重，第二列代表了正向偏好和权重。可以看到，正负向偏好的关键词有一定差异，负向偏好关键词有“难看”，“看不下去”，“可惜”，“不行”等明显否定倾向的词，而正向偏好关键词有“喜欢”，“好看”等可以反映出正向评论的词。

后续操作

如上只是对于评价内容做了简单的分析，自然语言分析分为许多方向并用广泛应用。后续还可以进行如下操作丰富对此文本的分析：

1，画词云，直观看出正负向偏好关键词的差异。

2.对正负向评论分别进行文本相似性分析。

3.通过机器学习算法，训练此向量，进行情感分析。

推荐文章：

用机器学习更快了解用户(翻译)

k折交叉验证(R语言)

聚类(二)：k-means算法（R&python）

小案例(一)：商业街抽奖

小案例(二)：面包是不是变轻了

小案例(三)：调查问卷

小案例(四)：销售额下滑

微信公众号：机器学习养成记搜索添加微信公众号：chenchenwings

扫描二维码，关注我们。

如需转载，请在开篇显著位置注明作者和出处，并在文末放置机器学习养成记二维码和添加原文链接。

快来关注我们吧！

相关文章

《无问西东》豆瓣短评分析
原文链接：《无问西东》豆瓣短评分析微信公众号：机器学习养成记搜索添加微信公众号：chenchenwings ...
《无问西东》豆瓣短评分析［二］
原文链接：《无问西东》豆瓣短评分析【二】微信公众号：机器学习养成记搜索添加微信公众号：chenchenwin...
无问西东短评
[咖啡]别样的时代，一样的青春，道义与输赢，犹豫与彷徨，让有限的生命里，绽放出不懊悔不羞耻的平和与喜悦，静坐听雨，...
《无问西东》短评
跑去看《无问西东》时避开了高峰，享受了近乎包场的待遇……国内的青春题材可谓取之不尽用之不竭（虽说《前任》的音乐偶尔...
那些《无问西东》教给我们的教育，您悟到了吗？
只问自由，无问西东；只问深情，无问西东；只问敢勇，无问西东；只问盛放，无问西东；只问初心，无问西东。清华...
用python分析豆瓣短评(二)
上一篇用python分析豆瓣短评(一)讲了通过编写爬虫代码获取豆瓣电影短评数据。本文则利用pandas、matpl...
立德立言，无问西东
立德立言，无问西东 ——简析《无问西东》《无问西东》片名取自192...
西东无问，无问西东。
文/遥途无问西东。陆陆续续听说这个电影也有几年，跟它同时拍的一代宗师都上映了，今年它才上映。看之前就怕自己哭...
《无问西东》无问西东
“人的一生怎样过才能充盈自己的内心而不虚无？” “真实！” 《无问西东》里，陈楚生饰演的吴岭澜问梅贻琦老师，真实是...
《无问西东》无问西东
它是一部很主旋律的电影，也可以说是强行完成扣提的一部命题电影，但是看完后，我不得不承认，仿佛内心深处，有一块被现实...

网友评论

本文标题：《无问西东》豆瓣短评分析

本文链接：https://www.haomeiwen.com/subject/lqjxzxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

Machine Learning & Recommendation & NLP & DL

机器学习与数据挖掘

热点阅读

Machine Learning & Recommendation & NLP & DL

数据分析

机器学习与数据挖掘

关于我们|服务条款|联系我们|《无问西东》豆瓣短评分析|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！