作图

作者: byejya | 来源:发表于2021-06-25 16:27 被阅读0次

    先是集中数据

    再1. vs intron 

    2.+strand

    3.vs mercer

    与各个数据库做比对。

    集中数据时需要把全部数据跑一下,先测试:

    max正确

    1

    用错了,但是下面测试了,没问题,不放图了

    1

    vs ncbi

    1

    比完并去重

    1

    一个数据出来4w。。。而且一个取end一个取start肯定没重的,所以是uniq的问题,uniq只能对相邻的起作用,

    1 1

    检查max版本:

     1

    数量上应该没错,去重也没去错。

    1 1

    好的消息是不管往没往intron上比对,这个的缩小并不少。起码说明使用ncbi的gff是对的。

    1

    坏消息是可能没法增多了

    但是检查发现mercer的选值和我的不同,基本都是前一位的,尝试-1处理。纯为了数据+-1可以试试。

    1 1

    32 33 在-1的 情况下,只测试one pair:

    1

    之前+1的只有30有比较多。

    再做整体的:32 33的也不多。

    1 1

    测试+-1

    32:

    1

    33:

    1

    31

    1

    30

    1

    -1的情况,检查31:

    1

    30:

    1

    +-0检查: 

    30

    1

    31

    1

    32

    1

    33

    1

    和exon intron比对

    取exon:

    1

    取gbkey=mRNA的,

    思路:1.同时和exon和intron比,取同时比对到的,看parent是不是同一个,指的是来自同一个转录本。

                2.对同是intron的,看有没有比对到多个intron且parent相同。

    1

    exon变bed暂时没问题,intron也没问题

    1 1 1

    和各个数据库比较:

    1

    仅仅算过滤出的结果,不去假阳性能得到的bp数:

    1

    加几乎全部的列得到的结果:

    1

    想测试sam和mercer坐标是否变化,但是随便打开一个发现这个是正常的,这个文件是:

    1

    是坐标-1的,但是取值没变,因此发现,确实是坐标有问题:

    1

    相关文章

      网友评论

          本文标题:作图

          本文链接:https://www.haomeiwen.com/subject/wevwlltx.html