AI4S之生命科学赛道——Datawhale暑期营学习笔记

作者: 生信技能书 | 来源:发表于2023-08-24 23:28 被阅读0次

暑期营快结束了，跟着群里的小伙伴从零开始，接触python以及基础的机器学习知识。

赛事的baseline很详细，DW的助教更是给出了每行代码的注释。

可以说刚入手的学习曲线比较平滑，迅速跑通baseline后遇到了瓶颈。

第一是内存消耗问题，也是每个人都要面对的，450K的甲基化数据过于庞大，不能一次性读取所有特征。这里鱼佬和群里的小伙伴都提到了，大概是两条路线：一是分批处理，过滤特征，训练模型，然后再把结果拼接起来；二是特征工程，通过降维聚类把维度降下来，但是这里又遇到了新问题。

第二就是缺失值的处理，Baseline中给的svm方法以及很多特征选择的方法需要先处理缺失值，用零填充效果并不理想；

现在是通过特征筛选去逐渐的提高分数，但是还是没有摸到能够扎实提升分数的方法，前面两个问题也一直困扰着。

打算是先看怎么离线评分，用一小部分特征去试，每次都跑几万特征，内存就爆了，白折腾。

网友评论

本文标题：AI4S之生命科学赛道——Datawhale暑期营学习笔记

本文链接：https://www.haomeiwen.com/subject/ovevmdtx.html

AI4S之生命科学赛道——Datawhale暑期营学习笔记