Subread是一种通用的reads aligner,可用于映射基因组DNA测序和RNA测序技术生成的reads。出于基因表达分析的目的,推荐使用Subread
在映射RNA-seq读数时,Subread仅应用于基因表达分析。对于需要读数完全比对的其他目的(例如检测基因组变异),应使用Subjunc aligner。
Subjunc:检测外显子 - 外显子连接并绘制RNA-seq读数。Subjunc是RNA-seq reads 比对工具,专门用于检测外显子 - 外显子连接并执行reads的完全比对(特别是外显子跨读)。
首先,下载安装subread
下载地址是:http://subread.sourceforge.net
找到对应的linux版本即可,因为我已经装了conda,所以直接用conda下载,下载好了之后可以直接调用,方便很多
conda install -y subread
使用
reads比对到参考基因组
第一步:构建索引
subread要求参考基因组的fasta必须要构建索引
subread-buildindex -o hg38 hg38.fa
第二步:比对
比对示例代码可以用以下:
subread-align -t 1 -T 5 -i hg38 -r reads1.txt -R reads2.txt -o output.bam
其中,各个参数的意思是
-T
:5个线程
-t
:指定数据类型,0
代表RNA-seq,1
代表DNA-seq
-i
:指定参考基因组的basename
-r
和-R
:指定输入的fq1和fq2文件
-o
:指定输出文件
还有其他的参数,如:
-I
:指定最高可以检测到的indel长度
featureCounts
featureCounts是一种非常高效的工具,可对基因组特征(如基因,外显子,启动子,基因体,基因组区和染色体位置)的映射读数进行计数。它可用于计数RNA-seq和基因组DNA-seq读数。
常见的命令有:
# 使用5个线程汇总单端读取数据集:
featureCounts -T 5 -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_SE.sam
# 总结BAM格式数据集:
featureCounts -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_SE.bam
# 同时汇总多个数据集:
featureCounts -t exon -g gene_id -a annotation.gtf -o counts.txt library1.bam library2.bam library3.bam
# 执行特定于链的读取计数(如果反向搁浅则使用'-s 2'):
featureCounts -s 1 -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_SE.bam
# 总结配对末端读取和计数片段(而不是读取):
featureCounts -p -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_PE.bam
# 汇总多个配对端数据集:
featureCounts -p -t exon -g gene_id -a annotation.gtf -o counts.txt library1.bam library2.bam library3.bam
# 计算片段长度仅在50bp和600bp之间的片段:
featureCounts -p -P -d 50 -D 600 -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_PE.bam
# 计算仅具有两端映射的片段:
featureCounts -p -B -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_PE.bam
# 从片段计数中排除嵌合片段:
featureCounts -p -C -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_PE.bam
一些参数的意思:
-a 注释文件,也就是GTF或者GFF文件,通过这个文件才能区分出哪些区域为外显子;
-o 输出结果文件,同样会输出一个以该名字结尾的.summary统计文件;
-F 指定输入注释文件类型,包括GTF,GFF,SAF等;
-t 指定注释文件中功能类型,默认外显子exon
-g 指定注释文件中属性信息,默认为gene_id
-A 如果基因组与注释文件中染色体ID不同,可以通过-A指定一个别名文件,例如有些基因组直接用数字表示染色体号,有些使用chr前缀;
-f 计算级别,以基因还是外显子为单位进行计算;
-M 如何处理多重比对reads
-Q 比对质量值阈值,小于此值的reads不用于计算;
-G 参考序列文件
网友评论