1.改脚本
intron.gff文件需要改
读取intron的部分
原来使用的intron:

gff处理:
使用之前detabase里的intron.gff文件,但是比较乱,需要先处理一下:
1.sort -t ' ' -k1n -k4n /mnt/x110/guosy/Database/hg38_gff/hg38-refseq-intron-inputed.gff> sorted_intron.gff
2.cut -d ' ' -f 1 sorted_intron_2.gff > id sort -u id >id_1 取得第一列的uniq
3.egrep '^#.' sorted_intron_2.gff > comment_line 取出注释行
4.比较id 和 comment_line的区别:


chrUn:参考解释https://www.jianshu.com/p/070bb2f95992
去除,只使用chr1-23
5.去除# sed '/^#.*/d' id_3 > id_4
6.查看-的顺序:

- + 都是从左到右的顺序。
sort -t ' ' -k1 -k4 -k5 -u hg38-refseq-intron-inputed.gff > hg38_uniq
sort -t ' ' -k1,4 -u hg38_uniq > hg38_intron_1
最终,hg38_intron_1是取出的去重的intron,下一步,需要改第一列的名字
2.机器学习:Predicting human splicing branchpoints by combining sequence-derived features and multi-label learning methods阅读笔记

这段提出多种解决问题的思路:1.先是intron特征,这个我也考虑过,用位置权重模型,其他文章也就intron序列特征提出多种模型,但是我认为会有人为偏差,是人学习不是机器学习。找到的规律并未比机器学习好。2.当做分类任务去做,这个和我考虑的一样,3.用集成学习的方法。一样。但目前在看LSTM,感觉对序列的处理,当做分类任务和集成学习不是唯一的选择。
集成学习:在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。

支持向量机的思路,并添加motif


多标签训练+集成学习的方法
网友评论