美文网首页自然语言处理
专题 自然语言处理之相似度计算常见问题

专题 自然语言处理之相似度计算常见问题

作者: chen_sheng | 来源:发表于2017-11-15 10:29 被阅读19次

    我在前面的文章简单提出了一些自然语言处理过程中的遇到的问题,在之后的调整工作中,我对这样的处理语聊的数据进行了更新和变化,为了更能适应性的处理大多数文本。              

    我们对以单词为单位处理结构为基础,转而处理长句子,处理大文本的相似度。在这样的过程中,最为突出要解决的是算法问题,为了解决以单词为维度的文本相似度计算对齐,计算量是随文本的增加呈指数增加的。从词语为单位,到计算句子的相似度,到计算短文本的相似度,甚至于到计算批量大文本的相似度,这样的处理顺序形成了计算文本相似度的系统。

    此外需要解决的问题是,通过介绍文本相似度的系统,处理的步骤刚好是逆过来的,先进行大文本切分,再进行分句处理,最后分词,才能得到我们处理的最小单元,在这样一个处理步骤当中,怎么进行大文本切分,还能保证基本语料的对应,从而降低计算的复杂度,如何进行分句处理,中英文分句的长短句,一句对应多句,分句的规范等问题,都是需要处理和注意的。

    另外我们还有需要解决的问题,文本的预处理(去标签,去没有意义的特殊符号,分词),包括中文分词问题,英文分词问题,词语标准化处理(文本标准化处理包括,中文的词语清洗,添加规则等,中文计数,英文的词语大小写,规范化处理)等问题需要解决或考虑。

    基于HowNet进行的词语相似度的优化问题,完善系统的相似度规则,添加新词规则,词典扩充等基础问题。

    此上是此次系统的建立的存在但不限于此的问题。

    接下来文章将会把部分统计数据和分析结果展示出来。

相关文章

  • 专题 自然语言处理之相似度计算常见问题

    我在前面的文章简单提出了一些自然语言处理过程中的遇到的问题,在之后的调整工作中,我对这样的处理语聊的数据进行了...

  • 自然语言处理 | 文本相似度计算

    文本是一种高维的语义空间,需要对其进行抽象分解,从而能够从数学角度去量化其相似性。距离度量的方式有多种多样,但是一...

  • 文本匹配利器:从Siamse孪生网络到Sentence-BERT

    文本匹配一直是自然语言处理(NLP)领域一个基础且重要的方向,一般研究两段文本之间的关系。文本相似度计算、自然语言...

  • 从Siamse孪生网络到Sentence-BERT综述

    文本匹配一直是自然语言处理(NLP)领域一个基础且重要的方向,一般研究两段文本之间的关系。文本相似度计算、自然语言...

  • nlp自然语言处理中句子相似度计算

    在做自然语言处理的过程中,现在智能对话比较火,例如智能客服,智能家电,智能音箱等,我们需要获取用户说话的意图,方便...

  • 如何计算两个文档的相似度(一)

    【转】如何计算两个文档的相似度(一) | 我爱自然语言处理** 一、相关的知识点及参考资料这篇文章不会写很长,但是...

  • 3.Gensim中Dict,Tf-Idf的解释

    最近项目中,有用到文本相似度计算,涉及到自然语言处理的一个很强大的库gensim 1.1 基本概念和用法 corp...

  • 2019-04-22

    当你喜欢一个女生的时候,你会付出你的所有,和我好像。 1.文本相似度计算——文本向量化 1.前言 在自然语言处理过...

  • FromWord Embeddings To Document

    文本相似度是自然语言处理研究热点之一,论文提出了一种新的衡量文本相似度的方法,Word Mover’s Dista...

  • 自然语言处理| NLTK

    自然语言处理(NLP) 自然语言处理(natural language processing)是计算机科学领域与人...

网友评论

    本文标题:专题 自然语言处理之相似度计算常见问题

    本文链接:https://www.haomeiwen.com/subject/bamzmxtx.html