暑期营快结束了,跟着群里的小伙伴从零开始,接触python以及基础的机器学习知识。
赛事的baseline很详细,DW的助教更是给出了每行代码的注释。
可以说刚入手的学习曲线比较平滑,迅速跑通baseline后遇到了瓶颈。
第一是内存消耗问题,也是每个人都要面对的,450K的甲基化数据过于庞大,不能一次性读取所有特征。这里鱼佬和群里的小伙伴都提到了,大概是两条路线:一是分批处理,过滤特征,训练模型,然后再把结果拼接起来;二是特征工程,通过降维聚类把维度降下来,但是这里又遇到了新问题。
第二就是缺失值的处理,Baseline中给的svm方法以及很多特征选择的方法需要先处理缺失值,用零填充效果并不理想;
现在是通过特征筛选去逐渐的提高分数,但是还是没有摸到能够扎实提升分数的方法,前面两个问题也一直困扰着。
打算是先看怎么离线评分,用一小部分特征去试,每次都跑几万特征,内存就爆了,白折腾。
网友评论