美文网首页
参考基因组下载和构建STAR索引(人源)

参考基因组下载和构建STAR索引(人源)

作者: 熊猫人和熊猫猫 | 来源:发表于2022-01-01 16:42 被阅读0次

0. STAR下载

  • 下载2.6.1b版本的STAR wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
  • 文件解压tar -xzf 2.6.1b.tar.gz
  • 进入文件夹 cd STAR-2.6.1b/source/
  • 软件安装 make STAR

1. 创建reference目录

这里下载的参考基因组为ensemble的人GRCh38参考基因组,最好单独建立一个文件夹,后续 解压缩建立索引输出文件 都存放在该目录。
参考命令行如下:
mkdir –p references/Homo_sapiens/Ensembl/GRCh38/
cd references/Homo_sapiens/Ensembl/GRCh38/

2. wget下载压缩包

默认当前路径为*/references/Homo_sapiens/Ensembl/GRCh38/;
命令如下:

  • fasta文件压缩包:
    wget ftp://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

  • gtf文件压缩包:
    wget ftp://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/Homo_sapiens.GRCh38.99.gtf.gz

3. gizp解压文件

  • fasta文件解压缩
    gzip -c -d Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz > Homo_sapiens.GRCh38.fa
  • gtf文件解压缩
    gzip -c -d Homo_sapiens.GRCh38.99.gtf.gz > Homo_sapiens.GRCh38.99.gtf

4. STAR构建索引

STAR是celescope的依赖软件,在下载和安装celescope时就已经嵌入到celescope对应的环境内。因此可以在celescope的环境中执行 构建索引 的步骤
(1)激活celescope的环境:conda activate celescope
(2)编辑index.sh,shell脚本内输入如下指令和参数:

STAR \
    --runMode genomeGenerate \ #让STAR执行基因组索引的生成工作
    --runThreadN 10 \ #构建运行使用的线程数
    --genomeDir . \ #构建好的参考基因组存放的位置,最好是单独建立的一个文件夹,这里是/references/Homo_sapiens/Ensembl/GRCh38
    --genomeFastaFiles ./Homo_sapiens.GRCh38.fa \ #fasta文件(参考基因组序列文件)
    --sjdbGTFfile ./Homo_sapiens.GRCh38.99.gtf \# gtf文件(基因注释文件)
    --sjdbOverhang 149 #读段长度: 后续回帖读段的长度, 如果读长是PE 100, 则该值设为100-1=99

(3)使用nohup投递任务:nohup sh index.sh &
STAR运行将近90min,构建好的正确索引文件如下:

$ ll
total 29037186
chrLength.txt
chrNameLength.txt
chrName.txt
chrStart.txt
exonGeTrInfo.tab
exonInfo.tab
geneInfo.tab
Genome
genomeParameters.txt
Log.out
SA
SAindex
sjdbInfo.txt
sjdbList.fromGTF.out.tab
sjdbList.out.tab
transcriptInfo.tab

我当前的运行结果:(修改和补救ing)


我的运行结果

5. CeleScope构建索引

celescope也有内置的参数celescope rna mkref构建索引,同时生成一个config文件

config文件内容
celescope rna mkref
-h #查看帮助信息
--genomeDir #默认为./
--thread #线程数默认为6
--genome_name #设置参考基因组的名称,这个名称会最终展示到celescope生成的报告里,默认为None
--dry_run 只生成config文件
--fasta #接fasta文件
--gtf #接gtf文件
--mt_gene_list #基因列表文件,指定为某些基因归类(一般用不到,默认None)

(1)激活celescope的环境:conda activate celescope
(2)编辑index.sh,shell脚本内输入如下指令和参数:

celescope rna mkref \
    --genome_name Homo_sapiens_ensembl_99\ #基因组名称
    --fasta ./Homo_sapiens.GRCh38.fa \ #fasta文件(参考基因组序列文件)
    --gtf ./Homo_sapiens.GRCh38.99.gtf \# gtf文件(基因注释文件)

(3)使用nohup投递任务:nohup sh index.sh &

postscript:
单细胞测序分析软件链接 celescope的下载和安装

相关文章

网友评论

      本文标题:参考基因组下载和构建STAR索引(人源)

      本文链接:https://www.haomeiwen.com/subject/euiiqrtx.html