美文网首页
达观杯长文本分类

达观杯长文本分类

作者: 向精英学习 | 来源:发表于2018-10-31 20:58 被阅读0次

    1.参赛指导

    1.1 背景

    这个比赛是文本分类比赛,比传统的短文本(300词)分类难,现在是长文本(3000词)分类。

    1.2 监督学习进行分类的基本过程 (假设有一个学习模型f供你使用)

    原始数据(一段原始文本)→数据预处理(处理后的文本)→特征工程(Features)→输入(模型f)→输出(类别)

    数据预处理:表情、符号会影响后续的处理,所以去掉;

    特征工程:生成向量=feature;(是机器学习中最重要的部分,深度学习也是完成这一步。有个说法是:特征决定了机器学习的上限,而机器学习算法只是为了逼近这个上限)

    模型的输入输出:都是模型所规定好的特征空间和类别空间。

    注:字和词:单个词才能表达一个完整的意思,比如“垃圾”,分开一个字意思,就不能够表达组合的意思(有些情况是可以的)。

    1.3 脱敏数据

    图1 脱敏数据(每个数字代表一个字、词)

    上图有标的数据用于训练,测试集没有数据,提交了才回有成绩。

    1.4 如何提高模型的性能

    (1)数据预处理:当所给的数据不全,其中可能也有错误的数据;(本源问题)(但可以数据增强,来增加数据来提高效果)

    (2)特征工程:技巧性,需要积累经验,比如区分人的话,用人脸特征就比身高特征好太多了; (是决定模型好坏的关键)

    (3)机器学习算法:不同的算法适合不同的问题,如这个简单的分类问题,逻辑回归比其他复杂的模型要好;

    (4)模型集成

    相关文章

      网友评论

          本文标题:达观杯长文本分类

          本文链接:https://www.haomeiwen.com/subject/zjsztqtx.html