我一直都有写日记的习惯。
之前都是写在日记本上,从2017年开始,在印象笔记里写电子版的。由于用语音写作,坚持得还算好。
今天就用Python的结巴分词,对日记进行一个分析。
▌印象笔记导出文本

很简单,全选后导出即可,保存为txt。
▌用结巴分词进行分析
#!/usr/bin/python
# -*- coding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import jieba
import jieba.analyse
import xlwt # 写入Excel表的库
if __name__ == "__main__":
wbk = xlwt.Workbook(encoding='ascii')
sheet = wbk.add_sheet("wordCount") # Excel单元格名字
word_lst = []
key_list = []
for line in open('1.txt'): # 1.txt是需要分词统计的文档
item = line.strip('\n\r').split('\t') # 制表格切分
# print item
tags = jieba.analyse.extract_tags(item[0]) # jieba分词
for t in tags:
word_lst.append(t)
word_dict = {}
with open("wordCount.txt", 'w') as wf2: # 打开文件
for item in word_lst:
if item not in word_dict: # 统计数量
word_dict[item] = 1
else:
word_dict[item] += 1
orderList = list(word_dict.values())
orderList.sort(reverse=True)
# print orderList
for i in range(len(orderList)):
for key in word_dict:
if word_dict[key] == orderList[i]:
wf2.write(key + ' ' + str(word_dict[key]) + '\n') # 写入txt文档
key_list.append(key)
word_dict[key] = 0
for i in range(len(key_list)):
sheet.write(i, 1, label=orderList[i])
sheet.write(i, 0, label=key_list[i])
wbk.save('wordCount.xls') # 保存为 wordCount.xls文件
▌词频分析

全年的日记中,出现词汇较多的词。
▌词云

用同样的方法,把在简书上发表的118篇文章,也作成词云。

把日记和2017年发表的文章,统一做成词云。

可见,2017年,我关注最多的几个方面:
1、马克思主义
今年参加了两次政治理论培训,时间都比较长。期间认真的学习了马克思的经典原著。在日记中、文章中写了很多的心得。花的时间较多,反映出来的比较明显。
2、写作
今年花时间较多在练习写作上,坚持在简书上写作,并且很多主题是关于写作本身的,如语音写作,写作方法的讨论等。
3、学习
终身学习者,不得不谈这个词。今年大量花时间学习了编程、写作、沟通、魔术。
4、思考、思维、思想
这三个词,分别排名:4、5、8。是同义词,出现频率算比较高了。
文字,是自己脑海里的声音。思考是动词,思维、思想是名词,共同反映了大脑的活动。
5、沟通
这个词出现的比较多。这也是我工作的主要内容。
6、故事
今年,最大的一个收获,是树立起了故事思维。学会了用故事来表达自己的想法。
7、哲学、人生、世界
喜欢哲学。
就这些吧。
感觉这个分析还是比较客观的,能够帮助我更好的认识自己,改变自己。
网友评论