Subread

作者: Nickier | 来源:发表于2019-01-22 00:49 被阅读85次

    Subread是一种通用的reads aligner,可用于映射基因组DNA测序和RNA测序技术生成的reads。出于基因表达分析的目的,推荐使用Subread

    在映射RNA-seq读数时,Subread仅应用于基因表达分析。对于需要读数完全比对的其他目的(例如检测基因组变异),应使用Subjunc aligner
    Subjunc:检测外显子 - 外显子连接并绘制RNA-seq读数。Subjunc是RNA-seq reads 比对工具,专门用于检测外显子 - 外显子连接并执行reads的完全比对(特别是外显子跨读)。

    首先,下载安装subread

    下载地址是:http://subread.sourceforge.net
    找到对应的linux版本即可,因为我已经装了conda,所以直接用conda下载,下载好了之后可以直接调用,方便很多

    conda install -y subread
    

    使用

    reads比对到参考基因组

    第一步:构建索引
    subread要求参考基因组的fasta必须要构建索引

    subread-buildindex -o hg38 hg38.fa 
    

    第二步:比对
    比对示例代码可以用以下:

    subread-align -t 1 -T 5 -i hg38  -r reads1.txt -R reads2.txt -o output.bam
    

    其中,各个参数的意思是
    -T:5个线程
    -t:指定数据类型,0代表RNA-seq,1代表DNA-seq
    -i:指定参考基因组的basename
    -r-R:指定输入的fq1和fq2文件
    -o:指定输出文件
    还有其他的参数,如:
    -I:指定最高可以检测到的indel长度

    featureCounts

    featureCounts是一种非常高效的工具,可对基因组特征(如基因,外显子,启动子,基因体,基因组区和染色体位置)的映射读数进行计数。它可用于计数RNA-seq和基因组DNA-seq读数。

    常见的命令有:

    # 使用5个线程汇总单端读取数据集:
    featureCounts -T 5 -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_SE.sam
    # 总结BAM格式数据集:
    featureCounts -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_SE.bam
    # 同时汇总多个数据集:
    featureCounts -t exon -g gene_id -a annotation.gtf -o counts.txt library1.bam library2.bam library3.bam
    # 执行特定于链的读取计数(如果反向搁浅则使用'-s 2'):
    featureCounts -s 1 -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_SE.bam
    # 总结配对末端读取和计数片段(而不是读取):
    featureCounts -p -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_PE.bam
    # 汇总多个配对端数据集:
    featureCounts -p -t exon -g gene_id -a annotation.gtf -o counts.txt library1.bam library2.bam library3.bam
    # 计算片段长度仅在50bp和600bp之间的片段:
    featureCounts -p -P -d 50 -D 600 -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_PE.bam
    # 计算仅具有两端映射的片段:
    featureCounts -p -B -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_PE.bam
    # 从片段计数中排除嵌合片段:
    featureCounts -p -C -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_PE.bam
    

    一些参数的意思:
    -a 注释文件,也就是GTF或者GFF文件,通过这个文件才能区分出哪些区域为外显子;
    -o 输出结果文件,同样会输出一个以该名字结尾的.summary统计文件;
    -F 指定输入注释文件类型,包括GTF,GFF,SAF等;
    -t 指定注释文件中功能类型,默认外显子exon
    -g 指定注释文件中属性信息,默认为gene_id
    -A 如果基因组与注释文件中染色体ID不同,可以通过-A指定一个别名文件,例如有些基因组直接用数字表示染色体号,有些使用chr前缀;
    -f 计算级别,以基因还是外显子为单位进行计算;
    -M 如何处理多重比对reads
    -Q 比对质量值阈值,小于此值的reads不用于计算;
    -G 参考序列文件

    相关文章

      网友评论

        本文标题:Subread

        本文链接:https://www.haomeiwen.com/subject/wbkkjqtx.html