12.28 （TFIDF，textrank法）找关键字

作者: KK_f2d5 | 来源:发表于2018-12-28 18:15 被阅读0次

12.28 （TFIDF，textrank法）找关键字
Python TextRank4ZH 应用TextRank算法提
关键词提取之TextRank4Keyword
文章摘要的自动生成（2）textTank的应用
HanLP 关键词提取算法分析详解
TextRank算法笔记
Python TextRank4ZH 应用TextRank算法对
从爬取的文章 HTML 中提取出中文关键字
tfidf
利用Python实现摘要自动提取，完美瘦身只需一行代码

先来学习以下如何使用jieba包来提取中文文本关键字信息。

导入库and读取数据

import jieba.analyse as analyse
import pandas as pd
df = pd.read_csv("your data path", encoding='utf-8')
df = df.dropna()
#content是str，"".join语句可以拼接字符串
content = "".join(df.content.values)

#我们来看看这个包怎么用
help("jieba.analyse")

本身是list形式，我们转化成str输出

top_tfidf = "  ".join(analyse.extract_tags(content, topK=30, withWeight=False))

TF_IDF方法

#sentence 为待提取的文本
#topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
#withWeight 为是否一并返回关键词权重值，默认值为 False
#allowPOS 仅包括指定词性的词，默认值为空，即不筛选
import time
start = time.time()
print ("  ".join(analyse.extract_tags(content, topK=30, withWeight=False,allowPOS=('ns', 'n', 'vn', 'v'))))
end = time.time()
print(end-start)

这里我们顺便算了个时间

用户  互联网  手机  平台  人工智能  百度  智能  技术  数据  服务  直播  产品  企业  视频  移动  应用  网络  行业  游戏  机器人  电商  内容  中国  领域  发展  创新  科技  提供  微信  市场
98.06722927093506

TextRank算法

#默认过滤词性，n名词，v动词
start = time.time()
print ("  ".join(analyse.textrank(content, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))))
end = time.time()
print(end-start)

用户  技术  中国  手机  平台  数据  企业  互联网  服务  产品  发展  市场  智能  行业  公司  进行  成为  提供  内容  百度
105.31719899177551

网友评论

本文标题：12.28 （TFIDF，textrank法）找关键字

本文链接：https://www.haomeiwen.com/subject/ctqelqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

12.28 （TFIDF，textrank法）找关键字

导入库and读取数据

TF_IDF方法

TextRank算法

相关文章

12.28 （TFIDF，textrank法）找关键字

Python TextRank4ZH 应用TextRank算法提

关键词提取之TextRank4Keyword

文章摘要的自动生成（2）textTank的应用

HanLP 关键词提取算法分析详解

TextRank算法笔记

Python TextRank4ZH 应用TextRank算法对

从爬取的文章 HTML 中提取出中文关键字

tfidf

利用Python实现摘要自动提取，完美瘦身只需一行代码

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读