美文网首页
转录组入门(5): 序列比对

转录组入门(5): 序列比对

作者: 宇天_ngs | 来源:发表于2017-09-14 11:35 被阅读324次

    前言

    比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2,并且搞懂它的用法。直接去hisat2的主页下载index文件即可,然后把fastq格式的reads比对上去得到sam文件。接着用samtools把它转为bam文件,并且排序(注意N和P两种排序区别)索引好,载入IGV,再截图几个基因看看!顺便对bam文件进行简单QC,参考直播我的基因组系列。生信技能树

    参考基因组及注释

    由于在第一节已经准备好了相应的软件,只需要再准备好相应的数据就行了。在HISAT2官网即可下载现成的index文件,这里使用小鼠常用的mm10。

    1503648924351.png

    接下来就用下载相应的注释,切记不同及基因组版本的对应关系

    1503649711228.png 1503649797663.png

    通过gencode下载最新小鼠GRCm38版本的gtf注释。这个页面也收集好了不同分类的基因集合,比如lncRNA的注释。

    序列比对

    ref=/mnt/e/0ngs/ref/mm10_hisat_index/mm10 #index
    # 根据注释文件提取已知splices位点信息
    hisat2_extract_splice_sites.py gencode.vM13.annotation.gtf > splicesites.txt
    # 开始比对
    for i in `seq 59 62`; do hisat2 -p 6 -x $ref --known-splicesite-infile ref/splicesites.txt -1 SRR35899$i_1.fastq.gz -2 SRR35899$i_2.fastq.gz -S SRR35899$i.sam 2>SRR35899$i.log; done 
    

    比对结果统计

    1503912458951.png image.png

    其中,concordantly指方向和相对距离都与建库一致;disconcordantly指配对的两个read都能比对上,但方向或者(和)相对距离不符合。s4、s5指不能同时比对上的配对read,拆分按单端测序条件比对的情况。

    Sort

    ###  sort -n(read name排序)  ###
    # name排序方便提高后续read count的效率
    samtools sort -n -@ 6 Akap95_1.sam -o Akap95_1.Nsort.bam
    # position排序利于存储压缩
    samtools sort -@ 6 Akap95_1.sam -o Akap95_1.Psort.bam   #染色体坐标排序
    # index
    ls *.Psort.bam |while read id;do (samtools index -@ 4 $id &);done
    

    相关文章

      网友评论

          本文标题:转录组入门(5): 序列比对

          本文链接:https://www.haomeiwen.com/subject/aftdsxtx.html