专题自然语言处理之相似度计算常见问题

作者: chen_sheng | 来源:发表于2017-11-15 10:29 被阅读19次

专题自然语言处理之相似度计算常见问题
自然语言处理 | 文本相似度计算
文本匹配利器：从Siamse孪生网络到Sentence-BERT
从Siamse孪生网络到Sentence-BERT综述
nlp自然语言处理中句子相似度计算
如何计算两个文档的相似度（一）
3.Gensim中Dict,Tf-Idf的解释
2019-04-22
FromWord Embeddings To Document
自然语言处理| NLTK

我在前面的文章简单提出了一些自然语言处理过程中的遇到的问题，在之后的调整工作中，我对这样的处理语聊的数据进行了更新和变化，为了更能适应性的处理大多数文本。

我们对以单词为单位处理结构为基础，转而处理长句子，处理大文本的相似度。在这样的过程中，最为突出要解决的是算法问题，为了解决以单词为维度的文本相似度计算对齐，计算量是随文本的增加呈指数增加的。从词语为单位，到计算句子的相似度，到计算短文本的相似度，甚至于到计算批量大文本的相似度，这样的处理顺序形成了计算文本相似度的系统。

此外需要解决的问题是，通过介绍文本相似度的系统，处理的步骤刚好是逆过来的，先进行大文本切分，再进行分句处理，最后分词，才能得到我们处理的最小单元，在这样一个处理步骤当中，怎么进行大文本切分，还能保证基本语料的对应，从而降低计算的复杂度，如何进行分句处理，中英文分句的长短句，一句对应多句，分句的规范等问题，都是需要处理和注意的。

另外我们还有需要解决的问题，文本的预处理（去标签，去没有意义的特殊符号，分词），包括中文分词问题，英文分词问题，词语标准化处理（文本标准化处理包括，中文的词语清洗，添加规则等，中文计数，英文的词语大小写，规范化处理）等问题需要解决或考虑。

基于HowNet进行的词语相似度的优化问题，完善系统的相似度规则，添加新词规则，词典扩充等基础问题。

此上是此次系统的建立的存在但不限于此的问题。

接下来文章将会把部分统计数据和分析结果展示出来。