美文网首页
(1) 使用jieba分词提取文章的关键词

(1) 使用jieba分词提取文章的关键词

作者: _hahaha | 来源:发表于2017-07-05 12:58 被阅读0次

需求分析

使用' jieba.analyse.extract_tags() '提取文档的关键词

开发环境

系统: macOS Sierra; 开发软件: PyChram CE; 运行环境: Python3.6


  • 首先导入需要用到的包

import os
import codecs
import jieba
from jieba import analyse
import pandas
  • 使用 jieba.analyse.extract_tags(content, topK=5)提取前五个关键词

这个模块除了多了 jieba.analyse.extract_tags(content, topK=5
这个提取关键词的函数外,其余内容同上一篇 词频统计 - 词云绘制中的‘创建语料库’模块相同

filePaths = []
fileContents = []
tag1s = []
tag2s = []
tag3s = []
tag4s = []
tag5s = []
for root, dirs, files in os.walk(
    'data/SogouC.mini/Sample'
):
    for name in files:
        filePath = os.path.join(root, name)
        f = codecs.open(filePath, 'r', 'utf-8')
        content = f.read().strip()  # 获取内容
        f.close()
        tags = jieba.analyse.extract_tags(content, topK=5)# 采用jieba.analyse.extrack_tags(content, topK)提取关键词
        filePaths.append(filePath)
        fileContents.append(content)
        tag1s.append(tags[0])  # 第一个关键词
        tag2s.append(tags[1])  # 第二个关键词
        tag3s.append(tags[2])  # 第三个关键词
        tag4s.append(tags[3])  # 第四个关键词
        tag5s.append(tags[4])  # 第五个关键词
  • 定义一个DataFrame用于存储 - 文件路径,文件内容和每个文件对应的前五个关键词

# 定义一个DataFrame存储 - 文件路径,文件内容和每个文件对应的前五个关键词
tagDF = pandas.DataFrame({
    'filePath': filePaths,
    'fileContent': fileContents,
    'tag1': tag1s,
    'tag2': tag2s,
    'tag3': tag3s,
    'tag4': tag4s,
    'tag5': tag5s,
})
print(tagDF.head())

运行结果如下:(只显示前五行)

关键词提取.png

相关文章

  • jieba python中文分词库快速入门

    jieba python中文分词库快速入门 关键词提取

  • (1) 使用jieba分词提取文章的关键词

    需求分析 使用' jieba.analyse.extract_tags() '提取文档的关键词 开发环境 系统: ...

  • TF-IDF入门与实例

    我们对文档分析的时候,通常需要提取关键词,中文分词可以使用jieba分词,英文通过空格和特殊字符分割即可。那么分割...

  • TAGS与分类

    分类 树形结构 TAGS 强调更贴近使用 用Python ,jieba分词,通过TF-IDF算法,提取文章中的高频...

  • python3中文jieba分词设置说明

    jieba分词的安装 在虚拟环境中 / 本地下安装 jieba jieba分词的配置 jieba中文分词的使用 进...

  • 关键词抽取

    五种关键词抽取 工具 1、jieba GitHub - fxsjy/jieba: 结巴中文分词 2、hanlp G...

  • 分词练习

    一、实验目标 尝试使用jieba对《龙族》进行分词,并进行分词效果比较分析 二、使用工具 在线分词工具、jieba...

  • 分词练习

    使用ICTCLAS(NLPIR)在线分词工具和jieba分词组件进行分词练习。 一. ICTCLAS 1.简介 汉...

  • 第3章 中文分词技术

    本章要点: 中文分词的概念与分类 常用分词的技术介绍 开源中文分词工具-Jieba简介 实战分词之高频词提取 中文...

  • 自然语言处理(NLP)相关

    ヾ(◍°∇°◍)ノ゙-参考 结巴分词使用 中文分词之结巴分词~~~附使用场景+demo(net) jieba分词、...

网友评论

      本文标题:(1) 使用jieba分词提取文章的关键词

      本文链接:https://www.haomeiwen.com/subject/jifqhxtx.html