Python解析命令行调整fasta文件显示宽度

作者: 灵木er | 来源:发表于2020-05-09 21:38 被阅读0次

Python解析命令行调整fasta文件显示宽度
perl 命令行实战1 - fasta文件的相关操作
解析fasta文件
自定义函数, 持续更新
Python脚本：fasta文件单序列信息提取
python模块之Argparse
SeqFu
SwiftUI 生物文件解析和预览组件支持pdb cif fas
利用 Python 的函数编程来简化命令行解析 API
Python库

是不是厌倦了改python脚本的输入、输出以及其他参数，或者简单点在python脚本中使用input()函数，手动输入完整内容，可以尝试解析命令行参数，享受tab补全的优点。

本文主要涉及python命令行解析，python命令行解析实例之fasta文件固定宽度显示。

事情是这样的，遇到了不同显示宽度的fasta文件，下图这样：

图一：待处理fa文件

图一是宽度不等的fa文件截图，去掉了">"开头的序列名。

想要把它们的显示宽度调整的一样，然后就去搜，发现了下面两文：

python3生信入门-根据指定碱基长度，合并或分割fasta文件中的每条序列并按行排列输出
python Fasta文件格式化-每行固定数目碱基输出

参考以上两文就改出了下面的代码：

以下内容在是在Ubuntu上操作的，未在其他系统测试。

## fasta文件按照指定宽度显示
length = eval(input("输入希望的换行字符数，超过最长序列表示单行：\n"))
f = open("fasta文件.txt")# 待处理序列文件

fasta = {}
for line in f:
    line = line.strip("\n")
    if ">" in line:
        seq_id = line
        fasta[seq_id] = ''
        continue
    fasta[seq_id] += line
f.close()

out_fasta =  open("out.fa", "w")# 输出序列文件
for key, value in fasta.items():
    out_fasta.write(key+"\n")
    while len(value) > length:
        out_fasta.write(value[0:length] + "\n")
        value = value[length:len(value)]
    out_fasta.write(value + "\n")

out_fasta.close()

涉及python语法包括读写文件、字典操作、循环与判断。知道字典强大，没看参考之前没想到使用字典，看完加深了对字典的认识。一开始的输入输出文件是固定的，如果要处理不同的文件就要去改脚本，受到前面两文解析命令行的启发，也学习了点python解析命令行，真的是点到为止。

加上解析命令行后的脚本是这样的：

#!/usr/bin/python3
import argparse # argparse是标准库里的模块 

parser = argparse.ArgumentParser(description='这是调整fasta文件显示宽度的python小脚本，需要三个参数，分别是输入原始fasta文件，输出fasta文件，需要的宽度，特别大超过最长序列则为一行')
parser.add_argument('-i', '--input', dest='Input', type=str,default='fasta.fa', help='需要处理的fasta文件')
parser.add_argument('-o', '--output', dest='Output', type=str,default='out.fa', help='output fasta文件')
parser.add_argument('-w', '--width', dest='Width', type=int, default='60', help='seq width')
option = parser.parse_args()

print(option)

length = option.Width

f = open(option.Input)# 待处理序列文件
fasta = {}
for line in f:
    line = line.strip("\n")
    if ">" in line:
        seq_id = line
        fasta[seq_id] = ''
        continue
    fasta[seq_id] += line
f.close()

out_fasta =  open(option.Output, "w")# 输出序列文件
for key, value in fasta.items():
    out_fasta.write(key+"\n")
    while len(value) > int(length):
        out_fasta.write(value[0:length] + "\n")
        value = value[length:len(value)]
    out_fasta.write(value + "\n")
out_fasta.close()

这是在参考了上面两文和下面两文后写出来的python解析命令行：