samtools-faidx用法

作者: 苏牧传媒 | 来源:发表于2018-10-21 22:11 被阅读2次

    faidx:

    samtools faidx xxx.fa

    能够对fasta 序列建立一个后缀为.fai 的文件

    该命令对输入的fasta序列有一定要求:对于每条序列,除了最后一行外, 其他行的长度必须相同,  

    >one

    ATGCATGCATGCATGCATGCATGCATGCAT

    GCATGCATGCATGCATGCATGCATGCATGC

    ATGCAT

    >two another chromosome

    ATGCATGCATGCAT

    GCATGCATGCATGC

    最后生成的.fai文件如下, 共5列,\t分隔;

    one 66 5 30 31

    two28981415

    第一列 NAME   :   序列的名称,只保留“>”后,第一个空白之前的内容;

    第二列 LENGTH:   序列的长度, 单位为bp;

    第三列 OFFSET :   第一个碱基的偏移量, 从0开始计数,换行符也统计进行;

    第四列 LINEBASES : 除了最后一行外, 其他代表序列的行的碱基数, 单位为bp;

    第五列 LINEWIDTH : 行宽, 除了最后一行外, 其他代表序列的行的长度, 包括换行符, 在windows系统中换行符为\r\n, 要在序列长度的基础上加2;

    提取序列:

    提取序列:

    samtools faidx input.fa chr1 > chr1.fa

    samtools faidx input.fa chr1:100-200 > chr1.fa

    对于UCSC的chr肯定是可以用的:

    >chr1

    >chr2

    ...

    对于ensemble呢?可行

    >1 dna:chromosome chromosome:GRCh38:1:1:248956422:1 REF

    >2 dna:chromosome chromosome:GRCh38:2:1:242193529:1 REF

    ...

    # samtools faidx input.fa 1 > chr1.fa

    # head -n  2 chr1.fa

    >1

    ATCG...

    samtools faidx input.fa 1 2 3 > chr1+2+3.fa

    # samtools faidx input.fa chr1 chr2 chr3 > chr1+2+3.fa 

    提取all:

    samtools faidx GRCh37.p13.genome.fa chr1 chr2 chr3 chr4 chr5 chr6 chr7 chr8 chr9 chr10 chr11 chr12 chr13 chr14 chr15 chr16 chr17 chr18 chr19 chr20 chr21 chr22 chrX chrY > GRCh37.chr.fa

    相关文章

      网友评论

        本文标题:samtools-faidx用法

        本文链接:https://www.haomeiwen.com/subject/bwmizftx.html