我在前面的文章简单提出了一些自然语言处理过程中的遇到的问题,在之后的调整工作中,我对这样的处理语聊的数据进行了更新和变化,为了更能适应性的处理大多数文本。
我们对以单词为单位处理结构为基础,转而处理长句子,处理大文本的相似度。在这样的过程中,最为突出要解决的是算法问题,为了解决以单词为维度的文本相似度计算对齐,计算量是随文本的增加呈指数增加的。从词语为单位,到计算句子的相似度,到计算短文本的相似度,甚至于到计算批量大文本的相似度,这样的处理顺序形成了计算文本相似度的系统。
此外需要解决的问题是,通过介绍文本相似度的系统,处理的步骤刚好是逆过来的,先进行大文本切分,再进行分句处理,最后分词,才能得到我们处理的最小单元,在这样一个处理步骤当中,怎么进行大文本切分,还能保证基本语料的对应,从而降低计算的复杂度,如何进行分句处理,中英文分句的长短句,一句对应多句,分句的规范等问题,都是需要处理和注意的。
另外我们还有需要解决的问题,文本的预处理(去标签,去没有意义的特殊符号,分词),包括中文分词问题,英文分词问题,词语标准化处理(文本标准化处理包括,中文的词语清洗,添加规则等,中文计数,英文的词语大小写,规范化处理)等问题需要解决或考虑。
基于HowNet进行的词语相似度的优化问题,完善系统的相似度规则,添加新词规则,词典扩充等基础问题。
此上是此次系统的建立的存在但不限于此的问题。
接下来文章将会把部分统计数据和分析结果展示出来。
网友评论