基因丰度估计-salmon
- salmon是常用的转录组定量软件之一,也可以用于宏基因组测序数据基因定量。
- 通过将测序数据比对回基因,可以对每条基因的丰度进行估计。
- 该软件可以直接输入reads进行分析,而不需要提前进行比对,最终输出每条基因的reads count计数及标准化后的TPM(Transcripts Per Million)
参考脚本
以 unigene 作为 reference 进行基因丰度估计
# 构建salmon index用于比对
salmon index \
-t unigene_cds.fasta \ # 输入unigene序列文件
-i unigene_index # 输出index目录名称
# 每个样品分别定量
salmon quant \
--validateMappings \ # 启用选择比对,提高灵敏度和特异性
--meta \ # 启用宏基因组模式
-p 8 \ # 线程
-l IU \ # 文库类型I表示inward , U表示unstranded
-i unigene_index \ # index目录
-1 ./A1_1.fq.gz \ # 输入fq1
-2 ./A1_2.fq.gz \ # 输入fq2
-o S/A1.quant # 输出目录名称
# 合并生成TPM文件
salmon quantmerge \
--quants 上一步结果文件 \
--names 样品顺序 \
--column tpm \
-o unigenens.tpm
# 生成count文件
salmon quantmerge \
--quants 同上 \
--names 同上 \
--column numreads \
-o unigenens.count
丰度结果绘图
Rscript abundance.R \
unigenens.tpm \ # tmp表格
./sample.txt \ # 样品分组信息文件
abc # 输出图片前缀
结果文件
abc.boxplot.pdf 箱线图
abc.cor-cluster.pdf 相关性热图
abc.cor.pdf 相关性热图
abc.density.pdf 密度图
abc.pca.pdf pca图
网友评论