美文网首页
12.28 (TFIDF,textrank法)找关键字

12.28 (TFIDF,textrank法)找关键字

作者: KK_f2d5 | 来源:发表于2018-12-28 18:15 被阅读0次

    先来学习以下如何使用jieba包来提取中文文本关键字信息。

    导入库and读取数据

    import jieba.analyse as analyse
    import pandas as pd
    df = pd.read_csv("your data path", encoding='utf-8')
    df = df.dropna()
    #content是str,"".join语句可以拼接字符串
    content = "".join(df.content.values)
    
    #我们来看看这个包怎么用
    help("jieba.analyse")
    

    本身是list形式,我们转化成str输出

    top_tfidf = "  ".join(analyse.extract_tags(content, topK=30, withWeight=False))
    

    TF_IDF方法

    #sentence 为待提取的文本
    #topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
    #withWeight 为是否一并返回关键词权重值,默认值为 False
    #allowPOS 仅包括指定词性的词,默认值为空,即不筛选
    import time
    start = time.time()
    print ("  ".join(analyse.extract_tags(content, topK=30, withWeight=False,allowPOS=('ns', 'n', 'vn', 'v'))))
    end = time.time()
    print(end-start)
    

    这里我们顺便算了个时间

    用户  互联网  手机  平台  人工智能  百度  智能  技术  数据  服务  直播  产品  企业  视频  移动  应用  网络  行业  游戏  机器人  电商  内容  中国  领域  发展  创新  科技  提供  微信  市场
    98.06722927093506
    

    TextRank算法

    #默认过滤词性,n名词,v动词
    start = time.time()
    print ("  ".join(analyse.textrank(content, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))))
    end = time.time()
    print(end-start)
    
    用户  技术  中国  手机  平台  数据  企业  互联网  服务  产品  发展  市场  智能  行业  公司  进行  成为  提供  内容  百度
    105.31719899177551
    

    相关文章

      网友评论

          本文标题:12.28 (TFIDF,textrank法)找关键字

          本文链接:https://www.haomeiwen.com/subject/ctqelqtx.html