这是一个简单有效的文本分类算法
优势:可以在排序限制、低损失近似值下以10Min极短的时间训练出百万级的模型
架构:
整体与cbow类似:cbow根据上下文推测某个单词出现的最大概率
对基于词袋bow的句子文本进行一个简单和有效的线性分类
该分类可以选择逻辑回归或者SVM
为了使输入简单,使用一个look-up table查找表,把单词平均转化到文本形式
-使用softmax来计算预定义类的概率分布,目的是为了加快运行
使用哈佛曼编码树,减少预测目标数量(频率越高的单词离树距离越近)
时间方面比CNN等深度学习模型快几个数量级,可以在多核普通单机上完成训练
-词袋(bow)是没有顺序特征的,所以用的是N-gram特征向量来表示,该向量
的假设和隐马尔可夫类似,该单词只与其前面的n个单词有关,具体n可以设定。
使用了hash函数对n-grams进行了内存映射。
总结:将它与各个深度学习的模型进行了比较,性能上相差无几,但是训练时间上优势
很大,不在一个数量级。
且支持了大型数据和多种语言的文本识别
网友评论