达观杯长文本分类

作者: 向精英学习 | 来源:发表于2018-10-31 20:58 被阅读0次

1.参赛指导

1.1 背景

这个比赛是文本分类比赛，比传统的短文本（300词）分类难，现在是长文本（3000词）分类。

1.2 监督学习进行分类的基本过程（假设有一个学习模型f供你使用）

原始数据（一段原始文本）→数据预处理（处理后的文本）→特征工程（Features）→输入（模型f）→输出（类别）

数据预处理：表情、符号会影响后续的处理，所以去掉；

特征工程：生成向量=feature；（是机器学习中最重要的部分，深度学习也是完成这一步。有个说法是：特征决定了机器学习的上限，而机器学习算法只是为了逼近这个上限）

模型的输入输出：都是模型所规定好的特征空间和类别空间。

注：字和词：单个词才能表达一个完整的意思，比如“垃圾”，分开一个字意思，就不能够表达组合的意思（有些情况是可以的）。

1.3 脱敏数据

图1 脱敏数据（每个数字代表一个字、词）

上图有标的数据用于训练，测试集没有数据，提交了才回有成绩。

1.4 如何提高模型的性能

（1）数据预处理：当所给的数据不全，其中可能也有错误的数据；（本源问题）（但可以数据增强，来增加数据来提高效果）

（2）特征工程：技巧性，需要积累经验，比如区分人的话，用人脸特征就比身高特征好太多了；（是决定模型好坏的关键）

（3）机器学习算法：不同的算法适合不同的问题，如这个简单的分类问题，逻辑回归比其他复杂的模型要好；

（4）模型集成

网友评论

本文标题：达观杯长文本分类

本文链接：https://www.haomeiwen.com/subject/zjsztqtx.html