美文网首页生信相关
利用python统计fq文件过滤后长度分布

利用python统计fq文件过滤后长度分布

作者: Ranzhou | 来源:发表于2016-07-25 10:14 被阅读375次

    通常从测序公司拿到的fq文件分为四行,第一行为序列名称,第二行为序列的碱基,第三行为序列名称,通常用+号代替,第四行为碱基质量。
    代码如下:

    from collections import Counter
    with open('srg1.r1.paired.fq','r') as Fileout, open('srg1.r1.paired.results.txt','w') as Filein:
      i = 4
      dic, arr = {}, []
      while True:
          line = Fileout.readline()
          i += 1
          if i%4 == 2:
              arr.append(len(str(line)))
          if not line:
              break
      dic = Counter(arr)
      for k,v in dic.iteritems():
           Filein.write(k + v)
    

    shell:

    cat your.fq | paste ----| awk '{print ">"$1 "\n" $2}'
    

    相关文章

      网友评论

        本文标题:利用python统计fq文件过滤后长度分布

        本文链接:https://www.haomeiwen.com/subject/kjugjttx.html