simtext: 中文文档相似性计算库

作者: 大邓和他的python | 来源:发表于2020-04-26 13:17 被阅读0次

simtext: 中文文档相似性计算库
Go 标准库中文文档
基于gensim计算文档相似性
golang学习资源
Go实战项目【四】数据库与构建用户模块
Clusterprofiler的一些技巧
Keras 、Tensorflow建立lstm模型资料
数据库复习（sequelize复习）
jQuery--第二节--事件
Golang 酷站收集，宁缺毋滥

simtext

simtext可以计算两文档间四大文本相似性指标，分别为：

Sim_Cosine cosine相似性
Sim_Jaccard Jaccard相似性
Sim_MinEdit 最小编辑距离
Sim_Simple 微软Word中的track changes

具体算法介绍可翻看Cohen, Lauren, Christopher Malloy&Quoc Nguyen(2018) 第60页

[图片上传失败...(image-e21c45-1587878265286)]

安装

pip install simtext

使用

中文文本相似性

from simtext import similarity

text1 = '在宏观经济背景下，为继续优化贷款结构，重点发展可以抵抗经济周期不良的贷款'
text2 = '在宏观经济背景下，为继续优化贷款结构，重点发展可三年专业化、集约化、综合金融+物联网金融四大金融特色的基础上'

sim = similarity()
res = sim.compute(text1, text2)
print(res)

Run

{'Sim_Cosine': 0.46475800154489, 
'Sim_Jaccard': 0.3333333333333333, 
'Sim_MinEdit': 29, 
'Sim_Simple': 0.9889595182335229}

英文文本相似性

from simtext import similarity

A = 'We expect demand to increase.'
B = 'We expect worldwide demand to increase.'
C = 'We expect weakness in sales'

sim = similarity()
AB = sim.compute(A, B)
AC = sim.compute(A, C)

print(AB)
print(AC)

Run

{'Sim_Cosine': 0.9128709291752769, 
'Sim_Jaccard': 0.8333333333333334, 
'Sim_MinEdit': 2, 
'Sim_Simple': 0.9545454545454546}

{'Sim_Cosine': 0.39999999999999997, 
'Sim_Jaccard': 0.25, 
'Sim_MinEdit': 4, 
'Sim_Simple': 0.9315789473684211}

参考文献

Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices. No. w25084. National Bureau of Economic Research, 2018.

如果

如果您是经管人文社科专业背景，编程小白，面临海量文本数据采集和处理分析艰巨任务，个人建议学习《python网络爬虫与文本数据分析》视频课。作为文科生，一样也是从两眼一抹黑开始，这门课程是用五年时间凝缩出来的。自认为讲的很通俗易懂o(￣︶￣)o，

python入门
网络爬虫
数据读取
文本分析入门
机器学习与文本分析
文本分析在经管研究中的应用

感兴趣的童鞋不妨戳一下《python网络爬虫与文本数据分析》进来看看~

支持一下

[图片上传失败...(image-ae4346-1587878265287)]

网友评论

本文标题：simtext: 中文文档相似性计算库

本文链接：https://www.haomeiwen.com/subject/zkvdwhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

simtext: 中文文档相似性计算库

simtext

安装

使用

参考文献

如果

更多

支持一下

相关文章

simtext: 中文文档相似性计算库

Go 标准库中文文档

基于gensim计算文档相似性

golang学习资源

Go实战项目【四】数据库与构建用户模块

Clusterprofiler的一些技巧

Keras 、Tensorflow建立lstm模型资料

数据库复习（sequelize复习）

jQuery--第二节--事件

Golang 酷站收集，宁缺毋滥

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读