美文网首页@产品@IT·互联网
数据透视之——李白诗集

数据透视之——李白诗集

作者: f2891238320d | 来源:发表于2018-07-22 17:03 被阅读69次

    上周看到产品经理用excel做的数据透视图很高大上,于是自己学了一下,并顺便用李白诗集做了原始数据,进行了分析。以下是整个过程。

    1,下载网络上流传的李白诗集的原始文件txt。

    2,使用Python,使用了结巴分词,对每一句话进行了分词处理。

    3,将所有分词处理,去除符号等脏数据。

    4,导入excel,进行数据透视。

    以下是分析出来的统计图:

    微信图片_20180722165758.png

    图1——三字以上词语频次

    图1为李白诗集中三字以上的词语出现频率前10名,第一的曲歌辞是诗名(没错,就是写了那么多首),其他如“君不见”,“天地间”,“悲来乎”“望长安”也很轻松的进了前十。这很李白。

    微信图片_20180722165804.png

    图2.1——两字词语出现频次


    微信图片_20180722165807.png

    图2.2——两字词语出现频次

    图2.1图2.2 为两字词语,“相思”排名第一,“明主”,“何时”“何处”各出现近40次,看得出来李白对明主的渴望很迫切。不过呢,美酒是排在明主前面的,哈哈,诗仙李白,岂能无酒?

    微信图片_20180722165810.png

    图3——关于月份的频次

    图3,写五月的诗远超其他,难道是五月天气好,不冷不热,正适合写诗?

    “猿啸千溪合,松风五月寒。他年一携手,摇艇入新安。”

    微信图片_20180722165812.png

    图4——单字出现频次

    单字中,出现最多是“不”,接着的“山天云风月”全是风景类词语,诗人李白先说不,其次再观天下景(我做的诗,哈哈)

    “安能摧眉折腰事权贵,使我不得开心颜”

    微信图片_20180722165815.png

    图5——来与去的出现频次

    来和去基本持平,有来有往。

    微信图片_20180722165819.png

    图6——东南西北方向词出现的频次

    “东”和“西”最多,看来日出与日落的方向果然是比较容易让人有感而发。

    微信图片_20180722165821.png

    图7——天与地的出现频次

    “天”的出现次数远高于“地”。想不到啥好的解释了。

    以上,纯属自己玩玩,分析的可能没那么准确,看看就好~

    相关文章

      网友评论

        本文标题:数据透视之——李白诗集

        本文链接:https://www.haomeiwen.com/subject/ijtrmftx.html