美文网首页
文本相似度判断

文本相似度判断

作者: 冰冰大象 | 来源:发表于2023-06-08 14:40 被阅读0次

今天开源社区技术小伙伴问到,如何判断2个论文或者文章相似度。然后随便了解了一下,记一下笔记

文章相似度对比属于NLP(自然语言处理)入门基础知识,涉及到的算法和思路如下

思路

1. 分词

即将两篇文章中涉及到的句子拆分为单词或词组

2. 清洗

将获得的单词,词组去掉停用词 (停用词比如符号,吗,呀,的)等没有意义的字或者词

3. 计算权重

通过清洗完成后的词,计算词在文章中出现的比重,即比重越高,则表示该词出现的频率越高

4. 计算相似度

有了2遍文章各自词的权重后,通过余弦相似度算法计算相似度

算法

涉及到的算法有如下

1. 分词算法

分词算法采用的是jieba分词,将句子分为单词

2. 计算权重

权重算法采用TF-IDF

TF-IDF是一种用于资讯检索与文本挖掘的常用加权技术,主要思想:如果一个单词在该文章中出现的频率(TF)高,并且在其它文章中出现频率很低,则认为该单词具有很好的区分能力,适合用来进行分类。

词频(Term Frequency)表示单词在该文章中出现的频率。

词频(TF) = 单词在该文章出现次数/当前文章总单词数


词频(TF)
反问档频率(Inverse Document Frequency)表示某一个特定单词IDF可以由总文章数除以包含该单词的文章数,再将得到的商取对数得到。如果包含该单词的文章越少,则IDF越大,则表明该单词具有很好的文章区分能力。

反问档频率(IDF) = log(语料库中文章总数/(包含该单词的文章数+1))
在这里插入图片描述


IDF

TF-IDF与一个词在文档中的出现次数成正比, 与包含该词的文档数成反比。

有了IDF的定义,我们就可以计算某一个词语的TF-IDF值:
TF-IDF(x)=TF(x)*IDF(x),其中TF(x)指单词x在当前文章中的词频。
在这里插入图片描述


TF-IDF

TF-IDF算法的优点:简单快速,结果比较符合实际情况。
TF-IDF算法的缺点:单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)
TF-IDF的应用场景:TF-IDF算法可用来提取文档的关键词,关键词在文本聚类、文本分类、文献检索、自动文摘等方面有着重要应用。

2. 相似度算法

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。
相似性范围从-1到1:

  • -1意味着两个向量指向的方向正好截然相反
  • 1表示它们的指向是完全相同的
  • 0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。

最常见的应用就是计算文本相似度

测试代码如下

# encoding=utf-8
import jieba
from scipy import spatial
from sklearn.feature_extraction.text import TfidfVectorizer

def cut(txt_name1, txt_name2):
    with open(txt_name1, encoding = 'utf-8') as f1:  # 以只读方式打开文件
        txt = f1.read()
        txt_encode = txt.encode('utf-8')
        txt_cut = jieba.cut(txt_encode)  # 切词
        result = ' '.join(txt_cut)
        # print(result)
    with open(txt_name2, "w",encoding="utf-8") as f2:  # 分词结果写入文件保存
        f2.write(result)
    f1.close()
    f2.close()


cut(r"D:\python\test\nlp_test00.txt", r"D:\python\test\nlp_test0_0.txt")  # 分别对文件调用cut方法分词
cut(r"D:\python\test\nlp_test11.txt", r"D:\python\test\nlp_test1_1.txt")

# 将停用词表从文件读出,并切分成一个数组备用
stopWords_dic = open(r'D:\python\test\chineseStopWords.txt', encoding='utf-8')  # 从文件中读入停用词
stopWords_content = stopWords_dic.read()
stopWords_list = stopWords_content.splitlines()  # 转为list备用
stopWords_dic.close()

with open(r"D:\python\test\nlp_test0_0.txt",  encoding='utf-8') as f3:
    res3 = f3.read()
with open(r"D:\python\test\nlp_test1_1.txt", encoding='utf-8') as f4:
    res4 = f4.read()

corpus = [res3, res4]
# print(corpus)
vector = TfidfVectorizer(stop_words=stopWords_list)
tf_idf = vector.fit_transform(corpus)
# print(tf_idf)

word_list = vector.get_feature_names_out()  # 获取词袋模型的所有词
weight_list = tf_idf.toarray()

# 打印每类文本的tf-idf词语权重,第一个for遍历所有文本,第二个for便利某一类文本下的词语权重
for i in range(len(weight_list)):
    print("-------第", i + 1, "段文本的词语tf-idf权重------")
    for j in range(len(word_list)):
        print(word_list[j], weight_list[i][j])

# 采用余弦相似度算法
def cosine_cal(v1, v2):
    cos_sim = 1 - spatial.distance.cosine(v1, v2)
    return cos_sim

## 判断2个tf-idf词语权重相似度
result= cosine_cal(weight_list[0],weight_list[1])
#相似度0到1之间
print(result)

chineseStopWords.txt 是停用词文档
nlp_test00.txt和nlp_test11.txt 分别是需要判刑的文章

运行结果如图 result 则是文本相似度

1686292660919.png

相关文章

  • 余弦相似度python实现

    通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。 余弦相似度是文本相似度度量中使用较多的一种方法,对...

  • 余弦相似度理解及shengxin中应用

    cosin similarity(余弦相似度) 1,它最常见的应用是计算文本相似度。将文本转换为向量 2,余弦相似...

  • 图片相似度判断

    1.https://zhuanlan.zhihu.com/p/68215900为了得到两张相似的图片,在这里通过以...

  • senLDA实践—长短文本相似度

    背景:计算短文本与长文本的相似度,如在搜索场景中,计算query和doc的相似度,用于排序。 经过调研,找到百度的...

  • 文本相似算法

    公司有很多场景需求,都需要用到了文本相似比对的算法。文本相似度算法比较常用的有余弦相似度,simHash算法,对文...

  • 文本计算

    2.2 中文分词 2.3 文本的表示 2.4 文本的相似度计算

  • 使用jieba和gensim模块判断文本相似度

    判断文本的相似度在很多地方很有用,比如在爬虫中判断多篇已爬取的文章是否相似,只对不同文章进一步处理可以大大提高效率...

  • 相似文本合并

    NLP文本相似度(TF-IDF)

  • 文本相似度-simhash

    之前流量检测项目针对恶意请求文本做过聚类 , 其中用到计算文本的相识度,文本相似度曾经尝试过用simhash,虽然...

  • siamese 文本相似度

    https://www.jianshu.com/p/fc3e4787ecac https://www.jiansh...

网友评论

      本文标题:文本相似度判断

      本文链接:https://www.haomeiwen.com/subject/xkcaedtx.html