美文网首页生物信息数据科学
59.《Bioinformatics Data Skills》之

59.《Bioinformatics Data Skills》之

作者: DataScience | 来源:发表于2021-08-26 20:18 被阅读0次

    FASTA/FASTQ文件的解析看起来是一件比较容易的事情,然而如果你尝试亲自编写代码的话就会发现很难全面地考虑问题。更好的方式是使用开源的库,这些库经过了广大用户的测试,更加鲁棒,同时速度更快。

    有很多工具可以实现这一目标,这里介绍一个由Li Heng开发的独立的解析FASTA/FASTQ文件的python脚本,叫做readfq.py下载地址)。函数的输入输出分别为:

    1. FASTX的文件对象(文件对象可以由open([file])或者标准输入流创建)
    2. 返回值为一个元组,内容为序列的描述,序列,序列质量(FASTA文件序列质量为None

    这里通过一个例子来展示此脚本:统计FASTA文件碱基数目

    数据下载地址:https://github.com/vsbuffalo/bds-files/tree/master/chapter-10-sequence

    #!/usr/bin/env python
    # -*- coding:utf-8 -* #1
    # count_nucleotides.py -- 清点碱基数目
    import sys
    from collections import Counter #2
    from readfq import readfq #3
    
    IUPAC_BASES = "ACGTRYSWKMBDHVN-." #4
    
    counts = Counter()
    
    for name, seq, qual in readfq(sys.stdin): #5
        counts.update(seq.upper())
    
    for base in IUPAC_BASES:
        print base + "\t" + str(counts[base])
    

    解释:

    #1:由于注释有中文,需要在头部加这行
    #2:这里引入Counte对象,此对象类似于dict对象,增加的新特性方便统计数字
    #3:通过readfq.py文件引入readfq函数
    #4:所有可能的碱基字符,由于Counter对象没有顺序,这里列出方便按顺序展示结果
    #5:这里调用readfq函数,采用元组拆包的方式定义序列seq对象,使用update函数统计字符的出现数目,这里将所有字母转为大写,所以soft-masked字符也会被统计(这里也可以不使用Counter而采用for循环来统计)

    python脚本可以使用python ./count_nucleotides.py的方式运行,也可以在脚本开头加#!/usr/bin/env python配置,然后使用chmod +x count_nucleotides.py赋予运行权限。这里以后者运行程序:

    $ cat contam.fastq | ./count_nucleotides.py
    A       103
    C       110
    G       94
    T       109
    R       0
    Y       0
    S       0
    W       0
    K       0
    M       0
    B       0
    D       0
    H       0
    V       0
    N       0
    -       0
    .       0
    

    以上就是这个脚本的全部内容,此脚本有很大的改进空间,例如增加参数读取文件名而不是使用标准输入流,或者增加特性可以统计每条序列的碱基,soft-masked的碱基,CpG岛的数目,验证输入是否有效等等。这个脚本里面最复杂的部分实际上是readfq函数,通过这个例子也说明了代码重用的重要性,我们没有必要重新实现复杂的函数,这也是专家的编程思路。

    相关文章

      网友评论

        本文标题:59.《Bioinformatics Data Skills》之

        本文链接:https://www.haomeiwen.com/subject/ydnuiltx.html