网易云课堂帮我提取出了所有课程的评价信息,那么我们可以做一个文本分析,用标签云的方式进行可视化,看看各位学员们都是如何评价我们课程的。
1、分词与词频统计
要做标签云可视化,首先需要对这些评论进行分词,分出一个一个的关键字标签,然后统计他们的频次,得到词频表。
要对文本进行分词,可以使用分词工具。我尝试了几个在线的文本分词工具,遗憾的是没有一个好使的,结果都不理想,没法用。看了一下资料呢,目前好像也都没有一个可以直接应用的方案,于是呢,我决定与其花时间去找分词工具,还不如自己直接开始人肉手动分词,节省时间。
当然,人肉分词也是有技巧的,你不是要把需要的文本复制出来,而是把不需要的文本抹去,用逗号把它抹去,只留下需要的标签文字。右手鼠标,左手逗号,花了半个下午完成人肉分词。
然后来对抹完的结果进行一个替换,把逗号替换为回车换行符,就可以得到分词标签的清单表,然后利用透视表透视一下,得到 关键字+词频 这么一个统计表,这就是我们用来做标签云的数据源。
2、制作标签云可视化
要做文字标签云可视化,一般可以使用在线的网站,比如有 Wordle、tagul、tagxedo 等等,都可以做。这里我们使用 Excel Power BI 来做,它有一个标签云的自定义视觉对象,可以非常方便地做一个文字云可视化。
首先,把词频表加载到 Power BI 里,Excel 或 csv 方式都可以。
第二步呢,我们是要在 https://app.powerbi.com/visuals (以后会转移到 office store)下载一个文字云的自定义视觉对象,在WordCloud.1.2.9.pbiviz,下载来以后能把它加载 PowerBI。
然后呢,我们就可以插入这个视觉对象,字段勾选标签关键字和词频就可以了,那么现在你已经得到了一个默认样式的文字云可视化了。
它有一些设置选项,General里,有个 max number,词目的最大数,可以设置显示多少个标签,默认值设置为200个标签。我们这里因为有大约600个词目,所以可以改到600。最小字体、最大字体也都可以设置。
Rotate text,是否旋转文字方向,默认是打开旋转的,我们点关掉,不旋转看着会舒服一点。
Data color,标签云的颜色,这里可以逐一修改,但事实上是不现实的,我们不可能为几百个标签修改颜色。你可以通过上面的切换主题来换个主题皮肤,那么可以一次性全部变化颜色。不过很奇怪的是PowerBI 居然不能在软件内部选择更换主题,而是需要自己另外去定制,再导进来,这个简直是一个很奇怪的设计啊,希望他后面会做的更好。
完成后,你可以发布到网上,得到一个公开的网址,发给别人,都可以在线看到:
https://app.powerbi.com/view?r=eyJrIjoiOTljZWY1MGUtNmI5Yy00MmRhLTlmYTQtYjJhNTgwMzg4NDBmIiwidCI6IjlhYmU4ZmQwLWYyODItNDVjYi1hYTc1LTUwZmMzMzM1YTQwZSIsImMiOjF9
点击【阅读原文】就可以在线查看这个网页。可能有点慢,在微软的云上,不及直接看图片快。
3、标签云印象
这就是我们简单的用 Power BI 制作了一个文字云标签云的可视化。通过这个可视化,我们可以看到各个学员对我们课程的评价,最大的关键字是什么呢,
实用、专业、高大上、受益匪浅、物超所值、必属精品,等等
我特别喜欢的还有,
工匠精神,职人匠心,精益求精,授人以渔,等等
还有学员留下了非常有诗意和文采的评论:
寻常一样数据图,才有匠心便不同
思路与技巧并重,创意与实战齐飞
曾经沧海难为水,除却巫山不是云
找找标签云里有没有你留下的评论呢:)
特别感谢各位学员朋友们的不吝好评,我们继续努力,为大家奉献更好的课程。
大家可以在公众号 iamExcelPro 回复 “标签云”,下载这个评论清单和词频统计表,自己动手试试文字云做法。如果使用在线网站,还可以选择图形布局,例如做成照片的样子。
实际工作中,可能难以获得很好的词频表,你可以对诸如 产品名称+销量 做文字云,也是可以的。
网友评论