美文网首页
NPL-FastText文本分类Bag of Tricks fo

NPL-FastText文本分类Bag of Tricks fo

作者: 机器不能学习 | 来源:发表于2018-12-11 23:01 被阅读0次

    这是一个简单有效的文本分类算法
    优势:可以在排序限制、低损失近似值下以10Min极短的时间训练出百万级的模型

    架构:
    整体与cbow类似:cbow根据上下文推测某个单词出现的最大概率
    对基于词袋bow的句子文本进行一个简单和有效的线性分类
    该分类可以选择逻辑回归或者SVM
    为了使输入简单,使用一个look-up table查找表,把单词平均转化到文本形式
    -使用softmax来计算预定义类的概率分布,目的是为了加快运行
    使用哈佛曼编码树,减少预测目标数量(频率越高的单词离树距离越近)
    时间方面比CNN等深度学习模型快几个数量级,可以在多核普通单机上完成训练
    -词袋(bow)是没有顺序特征的,所以用的是N-gram特征向量来表示,该向量
    的假设和隐马尔可夫类似,该单词只与其前面的n个单词有关,具体n可以设定。
    使用了hash函数对n-grams进行了内存映射。

    总结:将它与各个深度学习的模型进行了比较,性能上相差无几,但是训练时间上优势
    很大,不在一个数量级。
    且支持了大型数据和多种语言的文本识别

    相关文章

      网友评论

          本文标题:NPL-FastText文本分类Bag of Tricks fo

          本文链接:https://www.haomeiwen.com/subject/qxuyhqtx.html