用Python分析18万条《八佰》影评，看看观众怎么说？

作者: python草莓 | 来源:发表于2020-09-05 22:09 被阅读0次

用Python分析18万条《八佰》影评，看看观众怎么说？
跟教程学习
python几万条微博高频词分析
用Python实现《沉默的真相》3万+弹幕情感分析！简单！
影评——《八佰》
《八佰》影评
影评—八佰
《八佰》影评
火爆全网的《鱿鱼游戏》，今天用 Python 分析一波影评
若电影《八佰》在日本上映，票房会大卖吗？

直接上干货，很多爬虫项目实战内容可以私信我获取

数据获取

def parse_page(html):
    try:
        data = json.loads(html)['cmts']  # 将str转换为json
        #print(data)
        comments = []
        for item in data:
            comment = {
                'id': item['id'],
                'nickName': item['nickName'],
                'cityName': item['cityName'] if 'cityName' in item else '',  # 处理cityName不存在的情况
                'content': item['content'].replace('\n', ' ', 10),  # 处理评论内容换行的情况
                'score': item['score'],
                'startTime': item['startTime']
            }
            comments.append(comment)
        return comments
    except Exception as e:
        pass

数据清洗

读取影评数据

import pandas as pd
import numpy as np
data=[]
with open('comments.txt', 'r',encoding='utf-8-sig') as f_input:
    for line in f_input:
        data.append(list(line.strip().split(',')))
data

转为DataFrame并添加列名

df = pd.DataFrame(data).iloc[:, 0:6]
df.columns = ['观众ID','观众昵称','城市','评论内容','评分','评论时间']

删除重复记录和缺失值

df = df.drop_duplicates()
df = df.dropna()

预览并保存

df.sample(5)
df.to_csv("八佰.csv",index=False,encoding="utf_8_sig")

image.png

数据可视化

导入相关库

import jieba
import re
import matplotlib.pyplot as plt
from pyecharts.charts import *
from pyecharts import options as opts
from pyecharts.globals import ThemeType
import stylecloud
from IPython.display import Image

整体评论词云

data = pd.read_csv("八佰.csv")
data['评论内容'] = data['评论内容'].astype('str')
# 定义分词函数
def get_cut_words(content_series):
    # 读入停用词表
    stop_words = []
    
    with open("stop_words.txt", 'r', encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines:
            stop_words.append(line.strip())

    # 添加关键词
    my_words = ['', '']
    
    for i in my_words:
        jieba.add_word(i)

    # 自定义停用词
    my_stop_words = ['电影', '中国','一部']
    stop_words.extend(my_stop_words)

    # 分词
    word_num = jieba.lcut(content_series.str.cat(sep='。'), cut_all=False)

    # 条件筛选
    word_num_selected = [i for i in word_num if i not in stop_words and len(i)>=2]
    
    return word_num_selected

# 绘制词云图
text1 = get_cut_words(content_series=data['评论内容'])
stylecloud.gen_stylecloud(text=' '.join(text1), max_words=500,
                          collocations=False,
                          font_path='字酷堂清楷体.ttf',
                          icon_name='fas fa-square',
                          size=653,
                          #palette='matplotlib.Inferno_9',
                          output_name='./1.png')
Image(filename='./1.png')

image.png

对18万条影评内容进行分词，并将频率最高的500个词抽离出来制作词云图，我们发现广大观众对《八佰》这部战争题材电影表现出强烈的情感。除了好看、不错这些赞美之词以外，更多的是震撼、感人、历史、勿忘国耻等代表着强烈民族色彩的词。

评论类型分布

data['评论类型'] = pd.cut(data['评分'],[0,3,4,6],labels=['差评','中评','好评'],right=False)
df1 = data.groupby('评论类型')['评论内容'].count()
df1 = df1.sort_values(ascending=False)
regions = df1.index.to_list()
values = df1.to_list()
c = (
        Pie(init_opts=opts.InitOpts(theme=ThemeType.CHALK))
        .add("", zip(regions,values),radius=["40%", "70%"])
        .set_global_opts(title_opts=opts.TitleOpts(title="评论类型占比",subtitle="数据来源：猫眼电影",pos_top="0.5%",pos_left = 'center'))
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%",font_size=18))
    )
c.render_notebook()

image.png
超过90%的好评率，20亿+的票房不是没有道理。

差评抽样

image.png
差评虽不多，但集中在对《八佰》结局的轰炸。

评论数据量TOP10城市

df2 = data.groupby('城市')['评分'].count() #按菜系分组，对评分求平均
df2 = df2.sort_values(ascending=False)[:10]
# print(df2)
bar = Bar(init_opts=opts.InitOpts(theme=ThemeType.CHALK))
bar.add_xaxis(df2.index.to_list())
bar.add_yaxis("",df2.to_list()) #X轴与y轴调换顺序
bar.set_global_opts(title_opts=opts.TitleOpts(title="城市影评数量TOP10",subtitle="数据来源：猫眼电影",pos_top="2%",pos_left = 'center'),
                   xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=16)), #更改横坐标字体大小
                   yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=16)), #更改纵坐标字体大小
                   )
bar.set_series_opts(label_opts=opts.LabelOpts(font_size=16,position='top'))
bar.render_notebook()

image.png
成都人对《八佰》评论热情高涨，超过北上广深等大城市。

关于端午的评论

ouhao = df3.loc[df3['欧豪/端午'] == 1,]
text = get_cut_words(content_series=ouhao['评论内容'])
stylecloud.gen_stylecloud(text=' '.join(text), max_words=500,
                          collocations=False,
                          font_path='字酷堂清楷体.ttf',
                          icon_name='fas fa-camera',
                          #palette='matplotlib.Inferno_9',
                          size=653,
                          output_name='./ouhao.png')
Image(filename='./ouhao.png')

image.png

关于老算盘的评论

zhangyi = df3.loc[df3['张译/老算盘'] == 1,]
text = get_cut_words(content_series=zhangyi['评论内容'])
stylecloud.gen_stylecloud(text=' '.join(text), max_words=500,
                          collocations=False,
                          font_path='字酷堂清楷体.ttf',
                          icon_name='fas fa-video',
                          #palette='matplotlib.Inferno_9',
                          size=653,
                          output_name='./zhangyi.png')
Image(filename='./zhangyi.png')

image.png

关于羊拐的评论

wangqianyuan = df3.loc[df3['王千源/羊拐'] == 1,]
text = get_cut_words(content_series=wangqianyuan['评论内容'])
stylecloud.gen_stylecloud(text=' '.join(text), max_words=500,
                          collocations=False,
                          font_path='字酷堂清楷体.ttf',
                          icon_name='fas fa-thumbs-up',
                          #palette='matplotlib.Inferno_9',
                          size=653,
                          output_name='./wangqianyuan.png')
Image(filename='./wangqianyuan.png')

image.png

以上内容摘自圈内“J哥”

需要系统性python资料的请戳下面链接，大家一起学习
https://shimo.im/docs/QvG8JqxGKvcrXQhH/ 《python基础到进阶学习资料》，可复制链接后用石墨文档 App 或小程序打开

用Python分析18万条《八佰》影评，看看观众怎么说？
直接上干货，很多爬虫项目实战内容可以私信我获取数据获取数据清洗读取影评数据转为DataFrame并添加列名...
跟教程学习
用python爬取qq好友十万条说说并简单进行数据分析 https://zhuanlan.zhihu.com/p/...
python几万条微博高频词分析
python几万条微博高频词分析看到别人有做影视热评的分析统计，觉得挺好玩的，就来试试看看效果思路抓取想要...
用Python实现《沉默的真相》3万+弹幕情感分析！简单！
以前我写过不少文本数据分析，比如《八佰》影评分析、《三十而已》热评分析等，但基本停留在可视化分析层面。本文将运用文...
影评——《八佰》
今天这篇影评抛开电影背后真实的历史故事，仅对电影本身谈一点自己的观影感受。杠精请绕道。‍ 01关于故事电影取材...
《八佰》影评
因为疫情的原因，尘封多日的电影院刚刚解禁，近期影院中最受大家关注的非《八佰》这部抗战电影莫属了。看完电影，没有太...
影评—八佰
文/花非物欲这是一部在淘票票里面评分超9.2，票房破6亿的历史真实纪录改编的战争片。这一部电影中大部分出演的也...
《八佰》影评
《八佰》这部影片，最近一直炒得很火爆。观看后，我有一些想法与感悟。这部影片根据真实故事改编。在1937年，那时还...
火爆全网的《鱿鱼游戏》，今天用 Python 分析一波影评
火爆全网的《鱿鱼游戏》，今天用 Python 分析一波影评 Hello，各位读者朋友们好啊，我是小张~ 这不国庆嘛...
若电影《八佰》在日本上映，票房会大卖吗？
刚刚看到新闻，称《八佰》已经在英国上映了，并且得到了英国观众的一致好评。作为一位极其不满意管虎行为的资深影评人，...