- 我们首先需要快速建立一个可用的模型,最后通过交叉验证来检验数据;
- 画出学习曲线和检验误差,然后再看我们的算法有什么问题(高方差or高偏差etc...),然后决定下一步怎么做;
- 误差分析,系统缺陷是什么,如何提高。例如垃圾邮件分类:
通过手动分类,然后可以看出,系统缺陷,进而思考如何提高(通过选取更好的特征)。
提取词干是否有用,拿来用用看看就知道了。
通过使用交叉验证集的误差结果对比是否使用词干的误差率,从而知道提取词干是否有用。
是否区分大小写是否有用。
。。。
通过尝试不同的想法,实现多版本的学习算法,从而选择更好的。
网友评论