美文网首页
AI4S之生命科学赛道——Datawhale暑期营学习笔记

AI4S之生命科学赛道——Datawhale暑期营学习笔记

作者: 生信技能书 | 来源:发表于2023-08-24 23:28 被阅读0次

暑期营快结束了,跟着群里的小伙伴从零开始,接触python以及基础的机器学习知识。

赛事的baseline很详细,DW的助教更是给出了每行代码的注释。

可以说刚入手的学习曲线比较平滑,迅速跑通baseline后遇到了瓶颈。

第一是内存消耗问题,也是每个人都要面对的,450K的甲基化数据过于庞大,不能一次性读取所有特征。这里鱼佬和群里的小伙伴都提到了,大概是两条路线:一是分批处理,过滤特征,训练模型,然后再把结果拼接起来;二是特征工程,通过降维聚类把维度降下来,但是这里又遇到了新问题。

第二就是缺失值的处理,Baseline中给的svm方法以及很多特征选择的方法需要先处理缺失值,用零填充效果并不理想;

现在是通过特征筛选去逐渐的提高分数,但是还是没有摸到能够扎实提升分数的方法,前面两个问题也一直困扰着。

打算是先看怎么离线评分,用一小部分特征去试,每次都跑几万特征,内存就爆了,白折腾。

相关文章

网友评论

      本文标题:AI4S之生命科学赛道——Datawhale暑期营学习笔记

      本文链接:https://www.haomeiwen.com/subject/ovevmdtx.html