美文网首页Biostar Handbook学习小组
对数据进行操作(增、删、改、查)

对数据进行操作(增、删、改、查)

作者: 正树_9838 | 来源:发表于2017-12-01 19:58 被阅读39次

    1.FASTA/Q

    利用seqkit对FASTA/Q格式的序列文件进行操作,使用说明和安装可以查看:seqkit

    #对文件进行简单的统计:

    seqkit stat *.gz

    #统计序列的gc含量:

    seqkit fx2tab -j 4 -n -i -g viral.*.fna.gz

    #可以自定义命令行,计算A、C含量与AC含量:

    seqkit fx2tab -j 4 -n -i -H -B a -B c -B ac viral.*.fna.gz

    #对序列进行随机抽样:(-p 0.001表示以0.001的比例抽取)

    seqkit sample -p 0.001 duplicated-reads.fq.gz|seqkit seq -n -i>id.txt|wc -l

    #根据抽取出来的id进行搜索:

    seqkit grep -f id.txt duplicated-reads.fq.gz>duplicated-reads.subset.fq.gz

    #如何查找序列中的多义碱基:

    seqkit fx2tab -n -i -a viral.1.1.genomic.fna.gz|csvtk -H -t grep -f 4 -r -i -p '[^ATCG]'

    #将存在这些的ID存入一个文本:

    seqkit fx2tab -n -i -a viral.1.1.genomic.fna.gz|csvtk -H -t grep -f 4 -r -i -p '[^ATCG]'|cut -f 1 > id2.txt

    #然后排除这些序列:

    seqkit grep -f id2.txt -v viral.1.1.genomic.fna.gz > clean.fa

    #对序列进行去重:

    seqkit rmdup -s -i duplicated-reads.fq.gz > duplicated-reads.uniq.fq.gz

    #查找基序、酶切位点等子序列:

    seqkit locate -d -i -f enzymes.fa viral.1.1.genomic.fna.gz

    #如何根据开头信息分割fasta文件?首先查看开头:

    seqkit head -n 3 viral.1.protein.faa.gz|seqkit seq -n

    #根据id进行分割:

    seqkit split -j 4 -i --id-regexp "\[(.+)\]" viral.1.protein.faa.gz

    #对含有‘hypothetical’的序列进行搜索

    seqkit grep -n -r -i -p 'hypothetical' viral.1.protein.faa.gz|seqkit head -n 3|seqkit seq -n

    相关文章

      网友评论

        本文标题:对数据进行操作(增、删、改、查)

        本文链接:https://www.haomeiwen.com/subject/nbpkbxtx.html