序列处理命令行笔记

作者: lxmic | 来源:发表于2018-03-18 22:15 被阅读26次

    1.缩短fasta格式蛋白质id行的长度

    perl -lne 'if(/>/){$_=~m/>Sol.*\.[0-9]\.[0-9]/;print "$&";}else{$_=~m/[A-Z]*\*?$/;print "$&"}' mate.fa > out.fa

    2.缩短fasta格式基因id行的长度

    perl -lne 'if(/>/){$_=~m/>Sol.*\.[0-9]\.[0-9]/;print "$&";}else{$_=~m/[ATCG]*/;print "$&"}' mate.fa > out.fa

    Perl 特殊变量http://www.kichwa.com/quik_ref/spec_variables.html

    3.多行序列变成单行序列

    perl -pe '/^>/ ? print "\n" : chomp' in.fasta | tail -n +2 > out.fasta

    4.截取文件行和列

    # 截取-f显示指定字段的内容,后面跟列数(1,2,3),重定向截取的内容到out文件
    cut -f 1,2,3 in.file > out.file
    # 截取7-20行的内容重定向到out.file
    sed -n ‘7,20p’ in.file > out.file
    

    5.排序命令sort

    # 升序排列in.file
    sort in.file
    # 降序排列加参数-r,默认是升序
    sort -r in.file
    # 按数值排序,sort默认会将10<2,需要添加参数-n,才会认为10>2
    sort -n in.file
    # 指定列进行排序,及分隔符指定参数-k和-t
    sort -k -4 -t: in.file 
    # 指定第四列以降序数值分隔符为tab制表符来对文件diffinfo进行排序:需要注意的是,制表符和平时的‘\t’不一样,而是$'\t'的形式
    sort -nr -k 4 -t$'\t' diffinfo -o diffinfo
    
    

    6.根据ID提取fasta数据集中的序列

    这种方法都可以快速的拿到id匹配的序列,但是还是有点区别,主要就是perl脚本不知道是按什么顺序排列的,samtools是按idlist来逐个获取的,这一点还是要说明一下。

    6.1 perl脚本
    #! /usr/bin/perl -w  
    use strict;  
    die "perl $0 <lst><fa>\n" unless  @ARGV==2;  
    my ($lst,$fa)=@ARGV;  
    open IN,$lst||die;  
    my %ha;  
    map{chomp;$ha{(split)[0]}=1}<IN>;  
    close IN;  
      
    $fa=~/gz$/?(open IN,"gzip -cd $fa|"||die):(open IN,$fa||die);  
    $/=">";<IN>;$/="\n";  
    my %out;  
    while(<IN>){  
        my $info=$1 if(/^(\S+)/);  
        $/=">";  
        my $seq=<IN>;  
        $/="\n";  
        $seq=~s/>|\r|\*//g;  
        print ">$info\n$seq" if(exists $ha{$info} && ! exists $out{$info});  
        $out{$info}=1;  
    }  
    close IN;  
    
    6.2 Samtools工具提取序列
    $ samtools faidx your.fa
    $ xargs samtools faidx your.fa < idfile > outfile
    

    7.grep 命令

    # 统计匹配到string的行数,选项-c
    grep -c "string" file
    # 只显示匹配到的内容,选项-o
    grep -o “string” file
    # 使用正则来匹配内容,正则需要用‘’单引号括起来
    grep -o ‘[0-9]’ file
    

    8.sed行处理命令

    #截取文本特定的行,并重定向
    sed -n '7,21p' file > out
    #替换文本特定字符串
    sed ‘s/[a-z]/[A-Z]/g’
    

    9.批量下载番茄12条染色体测序文件

    因为每个染色体都是独立的一个文件夹,而且没有一直的数值,难以用单个变量来进行循环,我还是选择了分开两部分

    #下载前9条染色体序列
    for ((i=1;i<=9;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Solanum_lycopersicum/CHR_0$i/les_ref_SL2.50_chr$i.fa.gz ;done
    # 下载后3条染色体序列
    for ((i=10;i<=12;i++)); do wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Solanum_lycopersicum/CHR_$i/les_ref_SL2.50_chr$i.fa.gz; done
    

    10. 从转录组差异表达基因中获取某个家族的geneID

    # 将xlsx文件先另存为制表符间隔的文本文档,然后再处理
    grep "KEYWORD" diffexpgene.txt | cut -f 1,3,4,5,7,12 | grep -v "BGI_novel" | cut -f 1 > out.file
    
    

    11. 根据geneID从gff文件中获取基因的位置信息

    # 根据geneid批量获取基因的染色体位置信息
    grep -f geneid.file ITAG2.4_gene_models.gff3 | cut -f 1,4,5,9 | grep "ID=mRNA" | sed 's/;Name.*//g' | sed 's/ID.*://g' > gene.bed
    

    12. 利用bedtools中的getfasta选项,根据染色体位置信息文件下载gene序列

    # 下载基因序列,用于基因结构分析
    bedtools getfasta -fi genome.fa -bed gene.bed -name
    

    相关文章

      网友评论

        本文标题:序列处理命令行笔记

        本文链接:https://www.haomeiwen.com/subject/rzmyqftx.html