1.参赛指导
1.1 背景
这个比赛是文本分类比赛,比传统的短文本(300词)分类难,现在是长文本(3000词)分类。
1.2 监督学习进行分类的基本过程 (假设有一个学习模型f供你使用)
原始数据(一段原始文本)→数据预处理(处理后的文本)→特征工程(Features)→输入(模型f)→输出(类别)
数据预处理:表情、符号会影响后续的处理,所以去掉;
特征工程:生成向量=feature;(是机器学习中最重要的部分,深度学习也是完成这一步。有个说法是:特征决定了机器学习的上限,而机器学习算法只是为了逼近这个上限)
模型的输入输出:都是模型所规定好的特征空间和类别空间。
注:字和词:单个词才能表达一个完整的意思,比如“垃圾”,分开一个字意思,就不能够表达组合的意思(有些情况是可以的)。
1.3 脱敏数据
图1 脱敏数据(每个数字代表一个字、词)上图有标的数据用于训练,测试集没有数据,提交了才回有成绩。
1.4 如何提高模型的性能
(1)数据预处理:当所给的数据不全,其中可能也有错误的数据;(本源问题)(但可以数据增强,来增加数据来提高效果)
(2)特征工程:技巧性,需要积累经验,比如区分人的话,用人脸特征就比身高特征好太多了; (是决定模型好坏的关键)
(3)机器学习算法:不同的算法适合不同的问题,如这个简单的分类问题,逻辑回归比其他复杂的模型要好;
(4)模型集成
网友评论