美文网首页
Python解析命令行调整fasta文件显示宽度

Python解析命令行调整fasta文件显示宽度

作者: 灵木er | 来源:发表于2020-05-09 21:38 被阅读0次

    是不是厌倦了改python脚本的输入、输出以及其他参数,或者简单点在python脚本中使用input()函数,手动输入完整内容,可以尝试解析命令行参数,享受tab补全的优点。


    本文主要涉及python命令行解析,python命令行解析实例之fasta文件固定宽度显示。

    事情是这样的,遇到了不同显示宽度的fasta文件,下图这样:

    图一:待处理fa文件

    图一是宽度不等的fa文件截图,去掉了">"开头的序列名。

    想要把它们的显示宽度调整的一样,然后就去搜,发现了下面两文:

    python3生信入门-根据指定碱基长度,合并或分割fasta文件中的每条序列并按行排列输出
    python Fasta文件格式化-每行固定数目碱基输出

    参考以上两文就改出了下面的代码:

    以下内容在是在Ubuntu上操作的,未在其他系统测试。


    ## fasta文件按照指定宽度显示
    length = eval(input("输入希望的换行字符数,超过最长序列表示单行:\n"))
    f = open("fasta文件.txt")# 待处理序列文件
    
    fasta = {}
    for line in f:
        line = line.strip("\n")
        if ">" in line:
            seq_id = line
            fasta[seq_id] = ''
            continue
        fasta[seq_id] += line
    f.close()
    
    out_fasta =  open("out.fa", "w")# 输出序列文件
    for key, value in fasta.items():
        out_fasta.write(key+"\n")
        while len(value) > length:
            out_fasta.write(value[0:length] + "\n")
            value = value[length:len(value)]
        out_fasta.write(value + "\n")
    
    out_fasta.close()
    

    涉及python语法包括读写文件、字典操作、循环与判断。知道字典强大,没看参考之前没想到使用字典,看完加深了对字典的认识。一开始的输入输出文件是固定的,如果要处理不同的文件就要去改脚本,受到前面两文解析命令行的启发,也学习了点python解析命令行,真的是点到为止。

    加上解析命令行后的脚本是这样的:

    #!/usr/bin/python3
    import argparse # argparse是标准库里的模块 
    
    parser = argparse.ArgumentParser(description='这是调整fasta文件显示宽度的python小脚本,需要三个参数,分别是输入原始fasta文件,输出fasta文件,需要的宽度,特别大超过最长序列则为一行')
    parser.add_argument('-i', '--input', dest='Input', type=str,default='fasta.fa', help='需要处理的fasta文件')
    parser.add_argument('-o', '--output', dest='Output', type=str,default='out.fa', help='output fasta文件')
    parser.add_argument('-w', '--width', dest='Width', type=int, default='60', help='seq width')
    option = parser.parse_args()
    
    print(option)
    
    length = option.Width
    
    f = open(option.Input)# 待处理序列文件
    fasta = {}
    for line in f:
        line = line.strip("\n")
        if ">" in line:
            seq_id = line
            fasta[seq_id] = ''
            continue
        fasta[seq_id] += line
    f.close()
    
    out_fasta =  open(option.Output, "w")# 输出序列文件
    for key, value in fasta.items():
        out_fasta.write(key+"\n")
        while len(value) > int(length):
            out_fasta.write(value[0:length] + "\n")
            value = value[length:len(value)]
        out_fasta.write(value + "\n")
    out_fasta.close()
    

    这是在参考了上面两文和下面两文后写出来的python解析命令行:

    Python3之命令行参数处理
    python3中argparse模块

    鉴于参考已经进行了详尽介绍,本文就不过多描述,关于更详细的python解析命令行请阅读以上两文,参考中给出了链接。

    图二是该小脚本用法。


    图二:用法

    图三是60碱基宽度显示。


    图三:60碱基宽度
    图四是120碱基宽度显示。
    图四:120碱基宽度

    每条序列显示为一行就不插图了,太长。
    其实本文并没有讲述python是如何解析命令行的,前面说了点到为止,一样需求的可以照着改,如果有更高需求可以看看下面的链接,进行深入学习。

    参考:
    http://blog.sciencenet.cn/blog-3406804-1167451.html
    https://blog.csdn.net/niuhuihui_fei/article/details/72401387
    https://www.cnblogs.com/songguoyou/p/11919730.html#optparse%E6%A8%A1%E5%9D%97
    https://www.cnblogs.com/dengtou/p/8413609.html

    相关文章

      网友评论

          本文标题:Python解析命令行调整fasta文件显示宽度

          本文链接:https://www.haomeiwen.com/subject/raelnhtx.html