美文网首页
汉语词频统计

汉语词频统计

作者: taon | 来源:发表于2020-07-13 18:00 被阅读0次

    该案例以党的十九大报告为例,统计报告中各个词语出现的频率。总体步骤为读入文本,分词,词频统计。通过观察词语频率最高的几个词,我们就可以大致了解这份报告的主要内容。

    汉语中常见的停用词:我们,这里,但是,的,然而之类的词语,对于文章表达的主旨没有太大的影响。

    十九大报告链接:

    链接:https://pan.baidu.com/s/1xI91MdfXZzQ1Ibms9EEiAg 提取码:ne3l

    #打开文件并读取文本内容
    f = open('D:\\py_dataset\\十九大报告.txt','r',encoding = 'utf-8')
    txt = f.read()
    ​
    #切分词语,使用jieba分词器
    import jieba
    words = jieba.lcut(txt)
    ​
    #查看总的词语数量
    print(len(words))
    #17961
    ​
    #查看单独词语的数量
    print(len(set(words)))
    #3349
    ​
    #词频统计,统计长度大于1的词,因为长度为一的词基本上都是停用词
    counts = {}
    for word in words:
     if len(word) > 1:
     counts[word] = counts.get(word,0)+1 #使用了字典的get方法
    
    #将counts转化为列表格式
    counts = list(counts.items())
    ​
    #对词频进行排序
    counts.sort(key = lambda x:x[1],reverse = True)
    ​
    #打印频率最高的前10个词
    for i in range(10):
     print(counts[i][0],counts[i][1])
    # 发展 212
    # 中国 169
    # 人民 157
    # 建设 148
    # 社会主义 147
    # 坚持 131
    # 全面 90
    # 国家 90
    # 实现 83
    # 制度 83    </pre>
    

    由上面的统计结果可以看出,“发展”、“人民”、“社会主义”、“制度”等词语出现的频率最高,基本上我们就了解了十九大报告主要是在论述社会主义制度建设。

    相关文章

      网友评论

          本文标题:汉语词频统计

          本文链接:https://www.haomeiwen.com/subject/clrzcktx.html