美文网首页转录组
转录组比对软件STAR安装及使用

转录组比对软件STAR安装及使用

作者: 吕强强学生信 | 来源:发表于2022-11-11 20:53 被阅读0次

    发现服务器上没有安装STAR (Spliced Transcripts Alignment to a Reference),这个转录组最常用的比对工具之一,也是我之前一直的用的转录组比对工具,今天安装一下并重新学习,好好理解之前设置的参数是否正确。

    STAR是ENCODE计划(ENCyclopedia Of DNA Elements,人类基因组DNA元件百科全书计划)的御用pipeline工具,在转录组的文章中出镜率极高,别人说其准确率高,映射速度快,但需要占用大量内存,对计算资源有较高的要求。在之前Hisat2安装使用过程中,提到了2017年的一篇NC比较转录组比对工具的文章,又查了一下,这样总结的:STAT相比较TopHat和Hisat2,有较高的唯一比对率;STAR会将没有paired mapping上的reads都剔除,避免single reads比对到基因组上;并且STAR对lower-quality(包括more soft-clipped和错配碱基)比对有较高的容忍度,这对一些杂合率较高的基因组优势比较明显;这次注意到,在用GATK对RNA-Seq进行 Call Variants时,采用STAR的STAR 2-pass模式,估计以后也会用到。

    下载安装软件

    https://github.com/alexdobin/STAR

    选择其中一个版本下载后, tar -zxvf 进行解压:

    tar -zxvf STAR-2.7.9a.tar.gz

    cd STAR/source

     make STAR

    二、构建基因组索引Index

    和Hisat2一样,需要先构建基因组索引,索引文件作用现在还只记得是在比对过程中,我们并不是把几十万条reads直接比对到基因组上去,而是和Index进行比较,使比对过程变地可行,希望等课题结束后,再回过头来好好学习一下索引文件作用的原理,先上脚本:

    参数解释:

    --runThreadN:线程数为10

    --runMode:genomeGenerate,构建基因组索引;

    --genomeDir:指定索引生成目录;

    --genomeFastaFiles:指定参考基因组;

    --sjdbGTFfile:指定参考基因组的注释文件;

    --sjdbOverhang:这个是reads长度的最大值减1,默认是100,我不是很理解很多人分析的学习方法中都设置100,二代测序都是150bp的序列长度,我设置了149 (有时间时改一下数值比较一下对结果是否有影响);

    发现有三个反斜杠“\”异常成了黄色,暂时不清楚原因,结果报错了:

    其实我也不知道为啥,将运行命令行的反斜杠去掉,再试一下:

    刚才的问题解决了,又报了其它错误信息:

    居然是gtf文件的错误,第一次遇见这个问题,然后找原因:

    我们看一下gtf的开头是CM023448.1,如下图:

    我的参考基因组开头是>GWHAMMI00000001,如下图:

    原来是染色体的命名方式不一样,一个是CM开头,另一个是GWHAMMI开头,我回到NCBI去下载序列文件又看了一下,居然是我之前下错文件了(从另一个数据库下载的参考基因组,两个数据库同一物种染色体编号规则不同),之前做的工作又浪费了,重新下载,指定序列文件,30min后,成功建立索引,索引目录如下:

  1. reads比对:

  2. 相比于Hisat2,STAR太多的参数设置了,对于模式生物还好,很多默认参数就可以,但对于我的课题研究,就得仔细看看这些参数了,着实用去了我不少时间,先上我的脚本,如下图:

    我的参数设置:

    未用的其它参数:

    --outFilterMismatchNmax:比对时允许的最大错配数(可根据结果修改);

    --outSAMmapqUnique60:将uniquelymapping reads的MAPQ值调整为60,满足下游使用GATK进行分析的需要;

    --readFilesCommand:对FASTQ文件进行操作;

    --readFilesIn:输入FASTQ文件的路径;

    --outSJfilterReadsUnique:对于跨越剪切位点的reads(junction reads),只考虑跨越唯一剪切位点的reads;

    --alignIntronMin:最短的内含子长度设定了20,(根据GTF文件计算);

    --alignIntronMax:最长的内含子长度设定了50000,(根据GTF文件计算);

    --bamRemoveDuplicatesType   输出BAM文件时,STAR还可以对BAM进行一些预处理,用于去重。

    四:结果如下图,

    1、使用samtools查看生成的BAM文件。

    samtoolsview sample_Aligned.sortedByCoord.out.bam |head -n 5

    2、结果内容:

    Aligned.sortedByCoord.out.bam:reads比对到基因组的位置;

    Aligned.toTranscriptome.out.bam:reads比对到转录本的位置;

    Log.final.out:统计了比对情况的信息,是非常重要的结果;

    SJ.out.tab:splice junctions的一些信息,其中需要注意的是:对于junction的位置信息,STAR则是按照intron的起始和终止位置来定,而其他的一些软件则是按照exon的位置来决定的

    附:我比较了一下star和Hisat2的结果差异,在运行时间和比对率上,star并没有表现出明显的优越性上。

    参考:

    https://blog.csdn.net/weixin_28913137/article/details/112281831

    本文使用 文章同步助手 同步

    相关文章

      网友评论

        本文标题:转录组比对软件STAR安装及使用

        本文链接:https://www.haomeiwen.com/subject/vytcxdtx.html