NPL-FastText文本分类Bag of Tricks fo

作者: 机器不能学习 | 来源:发表于2018-12-11 23:01 被阅读0次

这是一个简单有效的文本分类算法
优势：可以在排序限制、低损失近似值下以10Min极短的时间训练出百万级的模型

架构：
整体与cbow类似:cbow根据上下文推测某个单词出现的最大概率
对基于词袋bow的句子文本进行一个简单和有效的线性分类
该分类可以选择逻辑回归或者SVM
为了使输入简单，使用一个look-up table查找表，把单词平均转化到文本形式
-使用softmax来计算预定义类的概率分布，目的是为了加快运行
使用哈佛曼编码树，减少预测目标数量(频率越高的单词离树距离越近)
时间方面比CNN等深度学习模型快几个数量级，可以在多核普通单机上完成训练
-词袋(bow)是没有顺序特征的，所以用的是N-gram特征向量来表示，该向量
的假设和隐马尔可夫类似，该单词只与其前面的n个单词有关，具体n可以设定。
使用了hash函数对n-grams进行了内存映射。

总结：将它与各个深度学习的模型进行了比较，性能上相差无几，但是训练时间上优势
很大，不在一个数量级。
且支持了大型数据和多种语言的文本识别

网友评论

本文标题：NPL-FastText文本分类Bag of Tricks fo

本文链接：https://www.haomeiwen.com/subject/qxuyhqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

NPL-FastText文本分类Bag of Tricks fo

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读