Python WordCloud对电视剧<<猎场&g

作者: 熊熊熊孩子 | 来源:发表于2017-11-30 11:48 被阅读48次

猎场

Scrapy爬虫教程一 Windows下安装Scrapy的方式和问题总结

Scrapy爬虫教程二浅析最烦人的反爬虫手段

Scrapy爬虫教程三详细的Python Scrapy模拟登录知乎

Scrapy爬虫教程四 Scrapy+Selenium有浏览器界面模拟登录知乎

Scrapy爬虫教程五爬虫部署

要说最近大火的影视剧当中<<猎场>>无疑是这其中之一吧，我也一直在追剧中...由于这阶段正好赶上在学习selenium来操作浏览器爬取数据，所以就爬取了豆瓣中对<<猎场>>的短评内容并生成了词云。

下面简短的介绍一下这次生成词云的环境以及使用的库：

1.Python 3.6.1

2.selenium 3.7.0 这是一个可以操作浏览器的库，模拟真实人的操作(包括点击按钮等操作)，还可以抓取动态页面(js生成的页面)

3.wordcloud 1.3.2 生成词云的模块

4.jieba 0.39 很好的中文分词库，功能强大并使用简单，由于wordcloud对于分词是弱势，所以借助jieba来进行分词

生成词云的流程：

1.使用selenium抓取<<猎场>>短评(前十页短评)，并将每一条短评存到.txt文件中(其实第一步应该进行登录操作的，但是限于公司网络原因又或者是豆瓣服务器原因，导致我这边获取二维码的接口调不通，所以这里我就不登录，直接获取十页的数据(不登陆只能获取十页的数据)，但是下边我也会附上使用selenium登录的代码)

2.使用jieba对爬取下来的短评进行分词，将分词存入新的文本

3.使用wordcloud对分词生成词云(由于我这里只爬取了十页的短评，所以进行分词得到的词比较少，这里我就没有对分此后得到的数据进行生成词云，而是直接对十页的短评生成的词云，这样生成的词云效果比较好)

下边就附上代码，要好好的手敲代码，所以这里直接附图：

最后附上生成的词云：

这篇博客只是熟悉和使用selenium进行抓取数据，好了该吃午饭了。

网友评论

本文标题：Python WordCloud对电视剧<<猎场&g

本文链接：https://www.haomeiwen.com/subject/jptvbxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python WordCloud对电视剧<<猎场&g

Scrapy爬虫教程一 Windows下安装Scrapy的方式和问题总结

Scrapy爬虫教程二浅析最烦人的反爬虫手段

Scrapy爬虫教程三详细的Python Scrapy模拟登录知乎

Scrapy爬虫教程四 Scrapy+Selenium有浏览器界面模拟登录知乎

Scrapy爬虫教程五爬虫部署

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python加油站

大数据爬虫Python AI Sql

我爱编程