先是集中数据
再1. vs intron
2.+strand
3.vs mercer
与各个数据库做比对。
集中数据时需要把全部数据跑一下,先测试:
max正确
1用错了,但是下面测试了,没问题,不放图了
1vs ncbi
1比完并去重
1一个数据出来4w。。。而且一个取end一个取start肯定没重的,所以是uniq的问题,uniq只能对相邻的起作用,
1 1检查max版本:
1数量上应该没错,去重也没去错。
1 1好的消息是不管往没往intron上比对,这个的缩小并不少。起码说明使用ncbi的gff是对的。
1坏消息是可能没法增多了
但是检查发现mercer的选值和我的不同,基本都是前一位的,尝试-1处理。纯为了数据+-1可以试试。
1 132 33 在-1的 情况下,只测试one pair:
1之前+1的只有30有比较多。
再做整体的:32 33的也不多。
1 1测试+-1
32:
133:
131
130
1-1的情况,检查31:
130:
1+-0检查:
30
131
132
133
1和exon intron比对
取exon:
1取gbkey=mRNA的,
思路:1.同时和exon和intron比,取同时比对到的,看parent是不是同一个,指的是来自同一个转录本。
2.对同是intron的,看有没有比对到多个intron且parent相同。
1exon变bed暂时没问题,intron也没问题
1 1 1和各个数据库比较:
1仅仅算过滤出的结果,不去假阳性能得到的bp数:
1加几乎全部的列得到的结果:
1想测试sam和mercer坐标是否变化,但是随便打开一个发现这个是正常的,这个文件是:
1是坐标-1的,但是取值没变,因此发现,确实是坐标有问题:
1
网友评论