美文网首页走进转录组
fastq构建表达矩阵;利用STAR,下载参考基因组及注释,建i

fastq构建表达矩阵;利用STAR,下载参考基因组及注释,建i

作者: Shift_shift | 来源:发表于2022-04-15 20:18 被阅读0次

# 基本格式

# fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

# 主要是包括前面的各种选项和最后面的可以加入N个文件

# -o --outdir FastQC生成的报告文件的储存路径,生成的报告的文件名是根据输入来定的

# --extract 生成的报告默认会打包成1个压缩文件,使用这个参数是让程序不打包

# -t --threads 选择程序运行的线程数,每个线程会占用250MB内存,越多越快咯

# -c --contaminants 污染物选项,输入的是一个文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析,一般用不到

# -a --adapters 也是输入一个文件,文件的格式Name [Tab] Sequence,储存的是测序的adpater序列信息,如果不输入,目前版本的FastQC就按照通用引物来评估序列时候有adapter的残留

# -q --quiet 安静运行模式,一般不选这个选项的时候,程序会实时报告运行的状况。

fastqc -o ./tmp.result/fastQC/ -t 6 ./tmp.data/fastq/H1EScell-dnase-2014-GSE56869_20151208_SRR1248176_1.fq

需要材料

基因组文件Species.genome.fasta

基因结构注释文件Species.genome.gff3

https://www.gencodegenes.org/human 下载数据(第一个和倒数第二个)#参考基因获取

数据准备也可以参考

转录组分析数据准备_yssxswl的博客-CSDN博客

1.建index:

STAR --runThreadN 12 --genomeDir index/--readFilesIn /data/shift/other/SRR2240617_1.fastq /data/shift/other/SRR2240617_2.fastq --quantMode TranscriptomeSAM --outSAMtype BAM SortedByCoordinate --outFileNamePrefix /data/shift/other/SRR2240617

--runThreadN :线程数

--genomeDir :index输出的路径

--genomeFastaFiles :参考基因组

--sjdbGTFfile :参考基因组注释文件

--sjdbOverhang :这个是reads长度的最大值减1,默认是100

需要一段时间,建index就完成啦。

2.比对,两个双端测序fastq文件为一组

gzip SRR2240617_1.fastq SRR2240617_2.fastq#先压缩

nohup STAR --genomeDir index --readFilesCommand zcat --readFilesIn SRR2240617_1.fastq.gz SRR2240617_2.fastq.gz --soloCBwhitelist whitelist --runThreadN 12 --outSAMtype BAM SortedByCoordinate --outFileNamePrefix SRR2240617 &#为第一步创建文件夹的内容

###

3.计数分析

featureCounts -p -t exon -g gene_id -a Homo_sapiens.GRCh38.99.gtf -o counts.txt SRR2240617Aligned.sortedByCoord.out.bam

相关文章

网友评论

    本文标题:fastq构建表达矩阵;利用STAR,下载参考基因组及注释,建i

    本文链接:https://www.haomeiwen.com/subject/uqbfertx.html