美文网首页
文本分析-关键词提取

文本分析-关键词提取

作者: 阿达t | 来源:发表于2016-06-15 16:40 被阅读2317次

    1.概念理解:
    词频(TF):指某一个给定词在该文档出现的次数
    逆文档频率(IDF):IDF指每个词的权重,他的大小和词的常见程度成反比
    TF-IDF:权衡某个分词是否是关键词指标,该值越大,是关键词的可能性越大。
    计算公式:TF-IDF=TF*IDF,其中,IDF=log(文档总数/包含该词的文档数+1)

    2.提取关键词python包:jieba.analyse.extract_tags(content.tooK=n)
    .content:文章内容
    .提取n个关键词

    案例代码:

    import os,codecs,pandas
    import jieba.analyse
    #创建一个数据框存储数据
    tagkey=pandas.DataFrame(columns=['filepath','content','tag1','tag2','tag3','tag4'])
    for root,dirs,files in os.walk('文件夹路径'):
          for name in files:
                filepath=root+'/'+name
                f=codecs.open(filepath,'r','utf-8')
                content=f.read()
                f.close()
                tags=jieba.analyse.extract_tags(content,topK=4)
                tagkey.loc[len(tagkey)+1]=[filepath,content,tags[0],tags[1],tags[2],tags[3]]
    
    代码输出结果

    相关文章

      网友评论

          本文标题:文本分析-关键词提取

          本文链接:https://www.haomeiwen.com/subject/kokpdttx.html