Python豆瓣电影《肖申克的救赎》评论爬取

作者: 大盘站 | 来源:发表于2022-02-07 16:17 被阅读0次

Python豆瓣电影《肖申克的救赎》评论爬取
Python爬虫基础之 Requests+Xpath 爬取豆瓣电
豆瓣经典TOP250｜二弹《霸王别姬》：当程蝶衣不再是真虞姬，便
《肖申克的救赎》——看了N遍，为什么还是没get到这个点呢？
愿你历尽苦难，归来之后仍是少年
人生必看电影——《肖申克的救赎》
希望的生长‖《肖申克的救赎》
《肖申克的救赎》观后感：别人永远夺不走的，是你的希望。
《肖申克的救赎》
四季奇谭：你所不知道的《肖申克的救赎》

先看效果图：

第一步：豆瓣电影《肖申克的救赎》评论数据

地址：（https://movie.douban.com/subject/1292052/comments?sort=time&status=P）

爬取前1w条评论

存储成txt文档

第二步：词频统计可视化展示

数据预处理

中文分词

统计top10的高频词

可视化展示高频词

第三步：绘制词云图

根据词频生成词云

第四步：

~~审核评论~~

================================================================

配置准备

中文分词需要jieba

词云绘制需要wordcloud

可视化展示中需要的中文字体

网上公开资源中找一个中文停用词表

根据分词结果自己制作新增词表

准备一张词云背景图（附加项，不做要求）

paddlehub配置

#安装jieba分词和词云

pip install jieba

pip install wordcloud

#安装paddle

pip install --upgrade PaddlePaddle

#安装模型

#hub install porn_detection_lstm==1.1.0

pip install --upgrade paddlehub

pip install numpy

#安装Beautifulsoup

pip install BeautifulSoup4

Github地址：https://github.com/mikite/python_sp_shawshank

有可能遇到的问题：

1.UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 1: invalid continuation byte

解决方法：

1.不使用urlLib换做requests

2.去掉请求头中的 'Accept-Encoding': 'gzip, deflate, br'

3.返回值reponse 转字符串指定编码utf-8

# 'Accept-Encoding': 'gzip, deflate, br',

2.关于cookie

解决方法：

1.去豆瓣请求头中复制cookie设置到请求头中

'Cookie': 'bid=WD6_t6hVqgM'

3.请求返回418的问题

解决方案模拟设置请求头，设置user-agent

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36',

4.使用beautifulsoup获取不到评论

解决方法：

第一步：指定解析参数为'lxml'

soupComment = BeautifulSoup(html, 'lxml')

第二步：

findAll方法指定css文件的class名

print('网页内容：', soupComment.prettify())

comments = soupComment.findAll(class_='short')

网友评论

python

本文标题：Python豆瓣电影《肖申克的救赎》评论爬取

本文链接：https://www.haomeiwen.com/subject/fkvmkrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python豆瓣电影《肖申克的救赎》评论爬取

第一步：豆瓣电影《肖申克的救赎》评论数据

第二步：词频统计可视化展示

第三步：绘制词云图

第四步：

相关文章

Python豆瓣电影《肖申克的救赎》评论爬取

Python爬虫基础之 Requests+Xpath 爬取豆瓣电

豆瓣经典TOP250｜二弹《霸王别姬》：当程蝶衣不再是真虞姬，便

《肖申克的救赎》——看了N遍，为什么还是没get到这个点呢？

愿你历尽苦难，归来之后仍是少年

人生必看电影——《肖申克的救赎》

希望的生长‖《肖申克的救赎》

《肖申克的救赎》观后感：别人永远夺不走的，是你的希望。

《肖申克的救赎》

四季奇谭：你所不知道的《肖申克的救赎》

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python