美文网首页
文本分析-关键词提取

文本分析-关键词提取

作者: 阿达t | 来源:发表于2016-06-15 16:40 被阅读2317次

1.概念理解:
词频(TF):指某一个给定词在该文档出现的次数
逆文档频率(IDF):IDF指每个词的权重,他的大小和词的常见程度成反比
TF-IDF:权衡某个分词是否是关键词指标,该值越大,是关键词的可能性越大。
计算公式:TF-IDF=TF*IDF,其中,IDF=log(文档总数/包含该词的文档数+1)

2.提取关键词python包:jieba.analyse.extract_tags(content.tooK=n)
.content:文章内容
.提取n个关键词

案例代码:

import os,codecs,pandas
import jieba.analyse
#创建一个数据框存储数据
tagkey=pandas.DataFrame(columns=['filepath','content','tag1','tag2','tag3','tag4'])
for root,dirs,files in os.walk('文件夹路径'):
      for name in files:
            filepath=root+'/'+name
            f=codecs.open(filepath,'r','utf-8')
            content=f.read()
            f.close()
            tags=jieba.analyse.extract_tags(content,topK=4)
            tagkey.loc[len(tagkey)+1]=[filepath,content,tags[0],tags[1],tags[2],tags[3]]
代码输出结果

相关文章

  • 文本分析-关键词提取

    1.概念理解:词频(TF):指某一个给定词在该文档出现的次数逆文档频率(IDF):IDF指每个词的权重,他的大小和...

  • HanLP分词器的使用方法

    前言:分析关键词 如何在一段文本之中提取出相应的关键词呢? 之前我有想过用机器学习的方法来进行词法分析,但是在项目...

  • 从爬取的文章 HTML 中提取出中文关键字

    分2步。 1.从 HTML 中提取出纯文本(去掉标签) 2.从纯文本中提取出中文关键字(TextRank关键词提取...

  • python+gephi构建文本知识图谱

    构建文本知识图谱主要分为3部分,首先对文本中的关键词进行提取,其次是根据提取信息构建关键词之间的共现矩阵,最后通过...

  • 文本情感分析方法研究小结

    1. 文本情感分析简介 何谓文本情感分析,其实很简单,利用算法来分析提取文本中表达的情感。例如分析一个句子表达的好...

  • 2018-10-23

    思维导图很关键的作用之一就是帮助我们快速梳理思维,提取文本的重点,而关键词就是提取重点的核心。 提取关键词之前,我...

  • 用Py做文本分析5:关键词提取

    1.关键词提取 关键词指的是原始文档的和核心信息,关键词提取在文本聚类、分类、自动摘要等领域中有着重要的作用。 针...

  • 数据分析之使用python 文本数据分析 关键字

    我就不沾啥大数据和人工智能的边了,只是默默的弄我的文本数据分析。我的初衷是对我自己的印象笔记的进行关键词提取分析,...

  • 怎么样的产品才算好产品?

    分析问题 首先我们分析、量化问题。 第一步就是提取题目中的关键词,这里提取了:怎么样,好的这两个关键词。 下面说明...

  • 【系列8】思维导图-关键词之道

    思维导图 思维导图关键词提取的4大方法: 1. 研究文本话题(话题法) 找到文本话题的主要内容,抓住话题做关键词。...

网友评论

      本文标题:文本分析-关键词提取

      本文链接:https://www.haomeiwen.com/subject/kokpdttx.html