转录组比对软件STAR安装及使用

转录组比对软件STAR安装及使用

作者: 吕强强学生信 | 来源:发表于2022-11-11 20:53 被阅读0次

RNASeq分析系列--使用STAR软件进行比对
转录组学习
转录组有参分析之STAR比对及可变剪切
转录组比对番外篇：aligner 与 mapping 区别
转录组学习三（数据质控）
转录组学习二（数据下载）
转录组学习五（reads比对）
转录组学习八（功能富集分析）
转录组学习六（reads计数与标准化）
转录组学习四（参考基因组及gtf注释探究）

发现服务器上没有安装STAR (Spliced Transcripts Alignment to a Reference)，这个转录组最常用的比对工具之一，也是我之前一直的用的转录组比对工具，今天安装一下并重新学习，好好理解之前设置的参数是否正确。

STAR是ENCODE计划(ENCyclopedia Of DNA Elements,人类基因组DNA元件百科全书计划)的御用pipeline工具，在转录组的文章中出镜率极高，别人说其准确率高，映射速度快，但需要占用大量内存，对计算资源有较高的要求。在之前Hisat2安装使用过程中，提到了2017年的一篇NC比较转录组比对工具的文章，又查了一下，这样总结的：STAT相比较TopHat和Hisat2，有较高的唯一比对率；STAR会将没有paired mapping上的reads都剔除，避免single reads比对到基因组上；并且STAR对lower-quality（包括more soft-clipped和错配碱基）比对有较高的容忍度，这对一些杂合率较高的基因组优势比较明显；这次注意到，在用GATK对RNA-Seq进行 Call Variants时，采用STAR的STAR 2-pass模式，估计以后也会用到。

下载安装软件

https://github.com/alexdobin/STAR

选择其中一个版本下载后， tar -zxvf 进行解压：

tar -zxvf STAR-2.7.9a.tar.gz

cd STAR/source

make STAR

二、构建基因组索引Index

和Hisat2一样，需要先构建基因组索引，索引文件作用现在还只记得是在比对过程中，我们并不是把几十万条reads直接比对到基因组上去，而是和Index进行比较，使比对过程变地可行，希望等课题结束后，再回过头来好好学习一下索引文件作用的原理，先上脚本：

参数解释：

--runThreadN：线程数为10

--runMode：genomeGenerate，构建基因组索引；

--genomeDir：指定索引生成目录；

--genomeFastaFiles：指定参考基因组；

--sjdbGTFfile：指定参考基因组的注释文件；

--sjdbOverhang：这个是reads长度的最大值减1，默认是100，我不是很理解很多人分析的学习方法中都设置100，二代测序都是150bp的序列长度，我设置了149 (有时间时改一下数值比较一下对结果是否有影响);

发现有三个反斜杠“\”异常成了黄色，暂时不清楚原因，结果报错了：

其实我也不知道为啥，将运行命令行的反斜杠去掉，再试一下：

刚才的问题解决了，又报了其它错误信息：

居然是gtf文件的错误，第一次遇见这个问题，然后找原因：

我们看一下gtf的开头是CM023448.1，如下图：

我的参考基因组开头是>GWHAMMI00000001，如下图：

原来是染色体的命名方式不一样，一个是CM开头，另一个是GWHAMMI开头，我回到NCBI去下载序列文件又看了一下,居然是我之前下错文件了(从另一个数据库下载的参考基因组，两个数据库同一物种染色体编号规则不同)，之前做的工作又浪费了，重新下载，指定序列文件，30min后，成功建立索引，索引目录如下：

reads比对：

相比于Hisat2，STAR太多的参数设置了，对于模式生物还好，很多默认参数就可以，但对于我的课题研究，就得仔细看看这些参数了，着实用去了我不少时间，先上我的脚本，如下图：

我的参数设置：

未用的其它参数：

--outFilterMismatchNmax：比对时允许的最大错配数(可根据结果修改);

--outSAMmapqUnique60：将uniquelymapping reads的MAPQ值调整为60，满足下游使用GATK进行分析的需要;

--readFilesCommand：对FASTQ文件进行操作;

--readFilesIn：输入FASTQ文件的路径;

--outSJfilterReadsUnique：对于跨越剪切位点的reads（junction reads)，只考虑跨越唯一剪切位点的reads;

--alignIntronMin：最短的内含子长度设定了20，(根据GTF文件计算);

--alignIntronMax：最长的内含子长度设定了50000，(根据GTF文件计算);

--bamRemoveDuplicatesType 输出BAM文件时，STAR还可以对BAM进行一些预处理，用于去重。

四：结果如下图，

1、使用samtools查看生成的BAM文件。

samtoolsview sample_Aligned.sortedByCoord.out.bam |head -n 5

2、结果内容：

Aligned.sortedByCoord.out.bam:reads比对到基因组的位置;

Aligned.toTranscriptome.out.bam:reads比对到转录本的位置；

Log.final.out：统计了比对情况的信息,是非常重要的结果;

SJ.out.tab:splice junctions的一些信息，其中需要注意的是：对于junction的位置信息，STAR则是按照intron的起始和终止位置来定，而其他的一些软件则是按照exon的位置来决定的

附：我比较了一下star和Hisat2的结果差异，在运行时间和比对率上，star并没有表现出明显的优越性上。

参考：

https://blog.csdn.net/weixin_28913137/article/details/112281831

本文使用文章同步助手同步

相关文章

RNASeq分析系列--使用STAR软件进行比对
STAR 软件由于其敏感的比对特性，因此在转录组 SNP Calling 过程中使用较多。 1. 下载安装对于 ...
转录组学习
conda create -n rna_seq 安装软件经过质控后，采用STAR进行比对虽然做的是无参转录组，...
转录组有参分析之STAR比对及可变剪切
转录组有参分析之STAR比对及可变剪切 STAR比对的特点：速度快准确度高 3'reads soft clip...
转录组比对番外篇：aligner 与 mapping 区别
导读考虑到在转录组比对时，有许多软件可以使用，但很少有介绍它们之间的差别。因此，本文主要介绍 STAR, KAL...
转录组学习三（数据质控）
转录组学习一（软件安装）转录组学习二（数据下载）转录组学习三（数据质控）转录组学习四（参考基因组及gt...
转录组学习二（数据下载）
转录组学习一（软件安装）转录组学习二（数据下载）转录组学习三（数据质控）转录组学习四（参考基因组及gt...
转录组学习五（reads比对）
转录组学习一（软件安装）转录组学习二（数据下载）转录组学习三（数据质控）转录组学习四（参考基因组及gt...
转录组学习八（功能富集分析）
转录组学习一（软件安装）转录组学习二（数据下载）转录组学习三（数据质控）转录组学习四（参考基因组及gt...
转录组学习六（reads计数与标准化）
转录组学习一（软件安装）转录组学习二（数据下载）转录组学习三（数据质控）转录组学习四（参考基因组及gt...
转录组学习四（参考基因组及gtf注释探究）
转录组学习一（软件安装）转录组学习二（数据下载）转录组学习三（数据质控）转录组学习四（参考基因组及gt...

网友评论

转录组

本文标题：转录组比对软件STAR安装及使用

本文链接：https://www.haomeiwen.com/subject/vytcxdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

转录组

关于我们|服务条款|联系我们|转录组比对软件STAR安装及使用|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！