美文网首页
徐大sao吃了哪些好吃的?用Python生成词云,一目了然!

徐大sao吃了哪些好吃的?用Python生成词云,一目了然!

作者: 编程小蝉 | 来源:发表于2020-05-11 14:11 被阅读0次

    美食视频作者徐大sao在互联网上很受欢迎,平时我也非常关注他。每天都吃一顿好的,那么他到底吃吃了哪些好吃的?在日常阅读中,我们经常遇到一些词云图片,看上去很炫酷,也能很直观的反应关键词的分布情况。本文我们将带着任务去学习,分析一 下徐大sao到底吃了哪些好吃的,给好吃的排个名。

    image

    一、获取徐大sao所有投稿视频标题

    想知道徐大sao每天吃什么最多,我们可以通过标题直接看到,比如最近一期的”用sao式老方做一盆热干面,一斤面不够吃,酱香浓郁,一口就上瘾”,我们能够看出他吃的是热干面。对应的,只需要抓取徐大sao近年来所有的投稿视频,我们就能分析出他吃什么好吃的最多。

    image

    打开徐大sao的主页,点击“投稿”按F12来找一下接口:

    我们可以点击XHR(xhr,全称为,用于与服务器交互数据是ajax功能实现)看看有没有接口,经过寻找发现有可能存在接口。

    image image

    右键在新的窗口中打开(右键点击Open in new tab),看看是不是:

    下图可以看到,的确获得了视频的标题,那么蓝框中的参数是什么意思呢?

    image

    经过观察,不难发现,在徐大sao的视频页面中,每行有5个视频,共有6列,一共是30个视频。所以我们能够大胆的猜测,ps=30这个参数,应该就是目前视频标题数量。

    image

    那么pn呢,默认pn=1,翻页不难发现,pn随着翻页而改变,pn就是page number的缩写,一共是17页面。

    那就简单了,我们只需要get请求17次就能抓取到所有数据了。

    数据的清洗:

    上面get获取到的json数据,不光是标题,还有简介,评论数等各种信息,我们这里格式化一下json看一下json数据格式,方便我们清洗。

    image

    用json数据格式化工具格式化之后,可以看到标题title在data的list下面的vlist里面。

    码代码:

    image

    经过我们的分析,短短几行代码就能获取到第一页的所有视频标题:

    image

    我们只需要优化一下代码,做个循环,就能获取到徐大sao所有的视频标题:

    image

    这样我们就得到了,所有的视频标题,并存在了一个列表中。

    image

    二、安装所需模块

    俗话说,磨镰不误砍柴工。我们现在安装一下jieba模块用来分词,统计词频,用wordcloud模块来生成词云。

    安装jieba模块,只需要执行pip install jieba

    安装wordcloud模块对于新手来说是个问题,如果直接执行pip install wordcloud,windows下会报错,我们用wheel方式来安装。

    首先打开 lfd.uci.edu/~gohlke/pythonlibs/ ,然后按下Ctrl +F 输入 wordcloud并搜索。

    找到合适自己的版本并下载,我这里安装的是python 64位的 3.7版本,那么就下载wordcloud-1.6.0-cp37-cp37m-win_amd64.whl。

    image

    然后执行pip install wheel安装wheel模块,

    接着执行 pip install wordcloud-1.6.0-cp37-cp37m-win_amd64.whl注意替换成你下载的模块:

    image

    三、开始分析

    jieba分词模块基础功能

    image

    输出:用sao式老方做一盆热干面 ,一斤面不够吃 ,酱香浓郁,一口就上瘾

    词云模块的基础功能,将上面一句话生成词云看看:

    image

    结果为:

    image

    OK,迫不及待,我们直接分析,所有标题的结果吧!

    image

    得到结果,字体越大,频率越高。不难发现,大sao最喜欢吃大蒜米饭,这些,并且非常过瘾。

    image

    但是这里面有各种各样的词汇,我们想知道徐大sao吃了哪些好吃的,可以将名词选出来。

    案例:

    image

    那么n就代表名词,我们用名词做一个词云。

    代码如下:

    image image

    OK,一目了然,到这里我们看到,大sao吃的最多的就是大蒜,米饭,面条,各种面。看来“碳水教父”的称号果然名不虚传啊。

    那要是给各个词排个名次,统计出现的具体次数该怎么做呢:

    image

    输出结果如下:

    image

    可以看到,大蒜,出现了足足134次,远远超过第二名!!!其次是米饭,辣椒,火锅,面条。

    真是离不开,辣和碳水。

    image

    会了这种方法,你就可以为你喜欢的美食博主做个分析啦!

    相关文章

      网友评论

          本文标题:徐大sao吃了哪些好吃的?用Python生成词云,一目了然!

          本文链接:https://www.haomeiwen.com/subject/hbjunhtx.html