之前的工作中需要准备好的文件:
基因组序列(genome.fasta)[已准备]
样本信息表(samples.txt)
蛋白序列(proteins.fa)[已准备]
测序数据(samples.fastq)[已准备]
基因注释文件(genes.gtf)[已准备]
- 下面来准备样本信息表
$ ls *.gz > fq.lst # 将所有fastq文件提取到fq.lst文件中去,方便后面制作样本信息表
$ sed -i 's/.fastq.gz//' fq.lst # 将fq.lst 文件的后缀去掉
$ awk -F '_' '{print $1"_"$2"\t"$0"\t测序文件的绝对路径"$0".fastq.gz"}' > samples.txt # 这样就制作好了
样本信息表
数据比对到参考基因组
软件:hisat2
分成四小步
1.构建参考基因组index
$ hisat2-build ../ref(参考基因组路径)/genome.fasta ../ref/genome 1>hisat2-build.log 2>&1
# ../ref/genome就是生成的基因组index,1是生成的标准日志文件,2是错误日志文件,2>&1就是把错误日志文件输出到1中。
2.比对
$ awk '{print "hisat2 --new-summary -p 2 -x ../ref/genome -U "$3" -S "$2".sam --rna-strandness R 1>"$2".log 2>&1 &"}' ../data/samples.txt > step2.run_hisat2.sh
# 其中--rna-strandness R是测序数据是否是链特异性测序的,如果是就写上,不是的话就不写,R是单端测序,RF是双端测序。如果服务器性能好的话就写上最后的&,让这24个样本同时运行。
$ nohup sh step2.run_hisat2.sh &
将生成的log文件利用multiqc软件合成一个比对表格
3.将sam文件转换成bam文件
$ awk '{print "samtools sort -o "$2".bam "$2".sam &"}' samples.txt > step3.sam2bam.sh
$ nohup sh step3.sam2bam.sh &
4.建立bam文件的index
$ awk '{print "samtools index "$2".bam &"}' samples.txt > step4.bamindex.sh
$ nohup step4.bamindex.sh &
利用IGV进行比对可视化
需要准备四个文件:bam文件、bam.bai文件、基因组序列
先下载所需要的基因组、然后导入bam文件进行查看
网友评论