美文网首页
02-TF-IDF分析问题

02-TF-IDF分析问题

作者: jxvl假装 | 来源:发表于2019-10-01 14:47 被阅读0次

第二种特征抽取的方式:TF-IDF

tf:term frequency:词的频率
idf:inverse document frequency:逆文档频率:log(总文档数量/该词出现的文档数量),总文档数量一定,如果该词实现的文档数量越多,值越小

重要性:tf * idf,即可得出一个词在文档中的重要性。类:sklearn.feature_extraction.text.TfidfVectorizer

为什么需要Tfidf:分类机器学习算法的重要依据

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
import jieba
def cutword():

    con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。")
    con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。")
    con3 = jieba.cut("如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")

    #转换成列表
    content1 = list(con1)
    content2 = list(con2)
    content3 = list(con3)

    #把列表转换成字符串,并以空格隔开
    c1 = " ".join(content1)
    c2 = " ".join(content2)
    c3 = " ".join(content3)
    return c1, c2, c3

def tfidfverc():
    """
    中文特征值化
    :return: None
    """
    c1, c2, c3 = cutword()
    print(c1, c2, c3)
    tf = TfidfVectorizer()
    data = tf.fit_transform([c1, c2, c3])
    print(tf.get_feature_names())
    print(data.toarray())   #每一个子列表代表一句话,里面的元素为词的重要性
    # print(len(data.toarray()))
    return None

if __name__ == "__main__":
    tfidfverc()

相关文章

  • 02-TF-IDF分析问题

    第二种特征抽取的方式:TF-IDF tf:term frequency:词的频率idf:inverse docum...

  • 刘润商学院日课总结12.13

    今日总结:KT法 KT法是用四个分析来了解问题。分别是状况分析,问题分析,决策分析,和潜在问题分析。遇到问题应该多...

  • 问题分析解决9.15

    什么能够叫做问题的分析?如果简单点来说,问题分析的目的是找到问题的关键影响因素,这就是问题分析的本质。问题分析中两...

  • 如何分析和解决问题——静态分析(记智识营培训五)

    导读:1)什么是分析 2)如何对概念进行分析 3)如何对问题进行分析 4)分析的几个关键点 分析问题、解决问题应该...

  • 问题分析

    系统运行缓慢问题如何排查? linux如何查看业务系统运行情况?具体分析指标有哪些? CPU分析指标主要包含:Co...

  • 问题分析

    问题分析有四个环节: 第一,叙述面临的问题; 第二,识别可能的原因; 第三,评估可能的原因; 第四,确认真正的原因...

  • 问题分析

    问题分析有四个环节:  第一,叙述面临的问题;  第二,识别可能的原因;  第三,评估可能的原因; 第四,确认真正...

  • 问题分析

    我们会遇到问题,也会去解决问题。问题是人生经验中的一个个标签,象征着经验的类型。我们遇到一个新问题,便会联想都相似...

  • 问题分析

    管理风格:对事——事无巨细,关注技术,包括在自己不懂、不熟悉的领域。 对人——固执、不善倾听,一旦认定,无法被说服...

  • 问题分析

网友评论

      本文标题:02-TF-IDF分析问题

      本文链接:https://www.haomeiwen.com/subject/uxluuctx.html