转录组直播课学习：第五天

作者: 焱黎 | 来源:发表于2020-04-05 17:07 被阅读0次

转录组直播课学习：第五天
转录组学习三（数据质控）
转录组学习二（数据下载）
转录组学习五（reads比对）
转录组学习八（功能富集分析）
转录组学习六（reads计数与标准化）
转录组学习四（参考基因组及gtf注释探究）
转录组学习一（软件安装）
生信菜鸟团-专题学习目录
使用python处理生物信息数据（五）

之前的工作中需要准备好的文件：
基因组序列(genome.fasta)[已准备]
样本信息表(samples.txt)
蛋白序列(proteins.fa)[已准备]
测序数据(samples.fastq)[已准备]
基因注释文件(genes.gtf)[已准备]

下面来准备样本信息表

$ ls *.gz > fq.lst # 将所有fastq文件提取到fq.lst文件中去，方便后面制作样本信息表
$ sed -i 's/.fastq.gz//' fq.lst  # 将fq.lst 文件的后缀去掉
$ awk -F '_' '{print $1"_"$2"\t"$0"\t测序文件的绝对路径"$0".fastq.gz"}' > samples.txt # 这样就制作好了

样本信息表

数据比对到参考基因组
软件：hisat2
分成四小步

1.构建参考基因组index

$ hisat2-build ../ref(参考基因组路径)/genome.fasta ../ref/genome 1>hisat2-build.log 2>&1 
# ../ref/genome就是生成的基因组index，1是生成的标准日志文件，2是错误日志文件，2>&1就是把错误日志文件输出到1中。

2.比对

$ awk '{print "hisat2 --new-summary -p 2 -x ../ref/genome -U "$3" -S "$2".sam --rna-strandness R 1>"$2".log 2>&1 &"}' ../data/samples.txt > step2.run_hisat2.sh
# 其中--rna-strandness R是测序数据是否是链特异性测序的，如果是就写上，不是的话就不写，R是单端测序，RF是双端测序。如果服务器性能好的话就写上最后的&，让这24个样本同时运行。
$ nohup sh step2.run_hisat2.sh &

将生成的log文件利用multiqc软件合成一个比对表格

3.将sam文件转换成bam文件

$ awk '{print "samtools sort -o "$2".bam "$2".sam &"}' samples.txt > step3.sam2bam.sh
$ nohup sh step3.sam2bam.sh &

4.建立bam文件的index

$ awk '{print "samtools index "$2".bam &"}' samples.txt > step4.bamindex.sh
$ nohup step4.bamindex.sh &

利用IGV进行比对可视化

需要准备四个文件：bam文件、bam.bai文件、基因组序列
先下载所需要的基因组、然后导入bam文件进行查看

网友评论

本文标题：转录组直播课学习：第五天

本文链接：https://www.haomeiwen.com/subject/wmbjphtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

转录组直播课学习：第五天

1.构建参考基因组index

2.比对

3.将sam文件转换成bam文件

4.建立bam文件的index

利用IGV进行比对可视化

相关文章

转录组直播课学习：第五天

转录组学习三（数据质控）

转录组学习二（数据下载）

转录组学习五（reads比对）

转录组学习八（功能富集分析）

转录组学习六（reads计数与标准化）

转录组学习四（参考基因组及gtf注释探究）

转录组学习一（软件安装）

生信菜鸟团-专题学习目录

使用python处理生物信息数据（五）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读