一. 文本数据预处理流程
1. 清洗数据:去除颜文字,html等
2. 分词
3. 去除停用词
4. 去除低频词
二. 搭建倒排表
from gensim.models import KeyedVectors # 词向量用来比较俩俩之间相似度
三. 训练基于FastText的意图分类模型
意图识别实际上是文本分类任务,需要标注的数据:每一个句子需要对应的标签如闲聊型的,任务型的。
四.排序
基于倒排表返回的结果,再根据余弦相似度来计算query跟候选问题之间的相似度,最后返回相似度最高的问题的答案。将使用BERT来表示句子的向量。
网友评论