1.数据下载
在ncbi找到要下载的sra样本,点击Accession List下载所需要样本名,会生成SRR_Acc_List.txt的文件,将这个文件上传到linux端,再用prefetch下载
ncbiprefetch
cat SRR_Acc_List.txt | while read id ; do prefetch $id ; done
fast-dump
下载完成的数据是已.sra结尾的,使用fast-dump转换为fastq格式的文件
cat SRR_Acc_List.txt | while read id ; do fastq-dump --split-3 --gzip $id.sra ;done
运行完成之后的文件以fastq.gz结尾
2.数据质控和过滤
fastp
fastp可以一步实现数据质控与过滤,相比fastqc+trim的流程更为方便迅速。这里演示单端数据的处理方法
cat SRR_Acc_List.txt | while read id ; do fastp -i $id.fastq.gz -o $id.fq.gz ; done
处理完成后会生成.fq.gz结尾的文件和fastp.html fastp.json的报告文件
3.数据比对
hisat2
hisat2比对需要使用参考基因组做索引文件,以拟南芥为例展示下载参考基因组的方法 点击refseq 下载标记的两个文件参考基因组
wget https://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/Arabidopsis_thaliana/latest_assembly_versions/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.fna.gz
注释文件(后面步骤会用到)
wget https://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/Arabidopsis_thaliana/latest_assembly_versions/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.gtf.gz
建立参考基因组的索引文件
hisat2-build GCF_000001735.4_TAIR10.1_genomic.fna GCF_000001735.4_TAIR10.1_genomic
hisat2比对
hisat2比对后会生成比较大的sam文件,需要用samtools转换为比较小的bam文件(演示的单端数据,双端数据需要更改-U参数)。
cat SRR_Acc_List.txt | while read id ; do hisat2 -q -x GCF_000001735.4_TAIR10.1_genomic -U $id.fq.gz | samtools sort -o $id.bam ; done
执行后会得到bam文件
定量
featureCounts
featureCounts需要用到参考基因组的注释文件,和上一步得到的bam文件
featureCounts -T 10 -t exon -g gene_id -a GCF_000001735.4_TAIR10.1_genomic.gtf.gz -o all.id.txt *.bam
featureCounts会生成txt的文件,用这个文件就可以去做下游的分析啦!
网友评论