利用TF-IDF及余弦公式处理文本相似性的计算

作者: 废柴社 | 来源:发表于2018-03-18 21:36 被阅读52次

利用tfidf计算文本相似度
利用TF-IDF及余弦公式处理文本相似性的计算
自然语言处理
NLP常用算法总结
关键词提取
机器学习中常用的相似性度量算法
TF-IDF与余弦相似性的应用 - 学习笔记
01-30
python文本相似度计算
1.TF-IDF

1 思路

要计算相似性，首先将文本转换成可计算的数。

比较简单的一种方式是把所有文章中的词作为坐标，在一篇文章上，对应词的词频作为在该坐标上的值，即可将一篇文章按词频转换成词向量——有了向量，相似性就好算了：距离公式、余弦都可以直接用。

更进一步：词频作权重过于简单，TF-IDF更有代表性。使用TF-IDF相当于考虑了词的重要性，计算出的相似性效果有使用价值了。

后续：要更精确，就需要考虑词与词之间相对位置的影响，涉及语义模型了，本篇暂不涉及。

2 处理过程

前置过程：已爬取约100篇文本存入MongoDB中，通过访问数据库直接取用对应文本。

2.1 首先要把文章分词

直接用大名顶顶的jiba分词，并使用哈工大停用词表+部分手工整理的停用词进行无效词剔除。

最终：将每篇文章转换成一个有分割符的词列(str)，把词列并至一个list变量中输出待用。

def stopWords():
    stopwords = []
    for line in open('C:\\Users\\chai\\Documents\\哈工大停用词表.txt'):
        stopwords = stopwords + list(line)
    return stopwords

def get_corpus():
    corpus = []
    for item in article_content.find().limit(5):
        seg = jieba.lcut(item['article_text'],cut_all=False)
        seg_text = ""
        for words in seg:
            if words not in stopWords():
                seg_text = seg_text + words
                seg_text += " "
        corpus.append(seg_text)
    return corpus

展示几篇文章词列表：

新生儿降生后先啼哭数声开始肺呼吸头两周每分钟呼吸 40 50 　　新生儿脉搏每分钟 120 140 次为正常　　新生儿正常体重 3000 4000 克低于 2500 克属于未成熟　　新生儿头两天大便呈黑色绿粘笛状无气味喂奶逐渐转为黄色金黄色浅黄色　　新生儿出生 24 小时内开始排尿超过第一周内每日排尿 30 以上异常　　新生儿体温 37 37.5 摄氏度之间政治注意保暖体重降低 36 摄氏度以下　　多数新生儿出生皮肤轻微发黄出生黄疸不退加深病态　　新生儿出生觅食吸允伸舌右咽拥抱反射　　新生儿照射光可引起眼反射第二个月开始视线追随活动玩具　　 10 出生新生儿听觉逐渐增强听见响声引起眨眼动作

机会现在开始接触宝宝即可发现小宝宝自己肢体语言透过表情动作说话　　从中得到相当高乐趣帮助宝宝智能情绪发展增进亲子互动减低照顾宝宝挫折感　　宁静睡眠期　　双眼闭着呼吸平稳规则没有自发性运动外观一看睡觉阶段不易叫醒宝宝　　活动型睡眠期　　双眼闭着呼吸快不规则偶尔手脚会动眼睛微睁开笑作出表情照顾常以为宝宝并未睡着阶段不易叫醒宝宝　　昏昏欲睡期　　想睡样子眼睛半睁目光迟滞呈迷糊状态通常反应给予刺激容易改变动态时期叫醒宝宝 ………………

2.2 计算TF-IDF 生成向量


from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

def tfidf():
    corpus = get_corpus()
    vectorizer=CountVectorizer()#该类会将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i类文本下的词频
    transformer=TfidfTransformer()#该类会统计每个词语的tf-idf权值
    tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))#第一个fit_transform是计算tf-idf，第二个fit_transform是将文本转为词频矩阵
    word=vectorizer.get_feature_names()#获取词袋模型中的所有词语
    weight=tfidf.toarray()#将tf-idf矩阵抽取出来，元素a[i][j]表示j词在i类文本中的tf-idf权重

return weight

2.3 余弦相似性计算

向量余弦公式：

余弦相似性

#余弦相似性转换成python
def dot_product(v1, v2):
    return sum(a * b for a, b in zip(v1, v2))
def magnitude(vector):
    return math.sqrt(dot_product(vector, vector))
def similarity(v1, v2):
    return dot_product(v1, v2) / (magnitude(v1) * magnitude(v2) + .00000000001)


def sim(weight):
    #计算两两余弦：
    for i in range(len(weight)):
        sim_list = []
        print('----这是第', i, u"类文本的相似性计算")
        for j in range(len(weight)):
            if j != i:
                sim = similarity(weight[i],weight[j])
                print(u'和第',j,u"篇文章的相似性为",sim)

输出结果示例

----这是第 0 类文本的相似性计算
和第 1 篇文章的相似性为 0.152645600023
和第 2 篇文章的相似性为 0.131098394898
和第 3 篇文章的相似性为 0.301936590914
和第 4 篇文章的相似性为 0.0276679076045

3 未决问题

数据处理完善：相似性排序、输出时保留文章序号
计算结果检查、调优；
不同部分的权重处理：标题(这次计算未纳入标题词)应该赋予更高权重。

4 参考

推荐系统技术之文本相似性计算（一）

网友评论

本文标题：利用TF-IDF及余弦公式处理文本相似性的计算

本文链接：https://www.haomeiwen.com/subject/zvryqftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！