美文网首页
进一步判断正确性与可视化探索

进一步判断正确性与可视化探索

作者: byejya | 来源:发表于2020-09-03 20:19 被阅读0次

    判断依据:1.单个文件多数开头结尾重合,即断点一致。更进一步,由于在3‘ss截断,因此按FR方向的3'ss如果有大于两个的一致,可认为正确。同理可用于多文件判断

                        2.利用互补序列,如果另一条未分段匹配,且在环形内部,可认为正确。进一步,在多个开始结尾一致的序列中,如果其互补序列也在环内,则认为正确。有其twopair中,可以判断两条序列的起止位置是否一致。一致则更加可信。这时可看一下TLEN的特征。

    IGV查看结果:

    1

    不正确的还很多,该加什么限制条件以去除

    首先,每一段都在intron内,不可能有一半在exon中。就只是以在intron中为限制条件

    2

    标准的也确实存在。参考基因组反向,5‘位置与5‘ss重合,3‘位置离3‘ss有一定距离。

    3

    A ? -2u不在

    2

    又一个

    想加入内含子位置信息

    想写可视化工具

    集成起来

    或者将内含子信息当参考基因组

    可视化的话以片段为主,不以参考基因组为主。

    只用intron看:

    3 4 6 8

    extron

    0 7 99 3

    不同两条

    6

    intron 看似没问题

    取出的序列问题也不大

    下一步用三种方式验证准确性

    1.先取只在intron的序列

    2.所有文件放一起,取聚集数大于两条的。且按单双分开,看与另一条的情况

    3.分文件考虑,对单侧的,取另一条,看成环情况

    简单说,想看位置重叠情况,不按序列

    再看两段情况,这个按是否同一序列。

    方法:1.取onepair 的另一端

    2.取在intron位置的序列。写取intron的位置,再取在intron的序列。或者,将gff3作为参考基因组,把取出的序列比对上去。

    找最简单的办法将比对在intron的序列取出。

    如果采用两类不直接的办法:1.将sam和gff3都转为fa再取出比对为全M的。问题是即使得到了还得再取比对上的,非常麻烦。

    2.取出gff3的位置信息,不转sam,在sam里找

    感觉都比较麻烦。用index过的bam文件应该可以缩短时间?

    如何直接取出位置信息并与intron位置比对?可否借助igv工具?

    如果用sam文件和位置信息,使用建索引的方式对intron位置信息+二分法能否达到快速比对的目的?是否还有更高效的算法?

    或者可以将intron作为参考基因组。

    研究工具和算法:

    pysam取重叠区域

    gffread取序列、bedtools、gffcompare等研究。

    找好的算法比对

    同时尝试往intron比对的结果

    感觉从sam比对有点复杂,不如直接在bwa的那一步将参考基因组换为intron序列,再从其中取特征序列,在igv中与intron的gff文件同时查看。

    因此现在:取intron的fa,建索引,bwa,取特征序列。

    这种的twopair会比较准确,而onepair需要从与全部参考基因组比对的sam里取。

    现在两步:1.用intron再重复一次

    2.取onepair的另一条。

    相关文章

      网友评论

          本文标题:进一步判断正确性与可视化探索

          本文链接:https://www.haomeiwen.com/subject/medpsktx.html