2021-05-21--Python脚本之对基因组cds去冗余

作者: Amant_8bb4 | 来源:发表于2021-05-21 09:24 被阅读0次

2021-05-21--Python脚本之对基因组cds去冗余
dRep物种集去冗余
宏基因组分箱（六）Prokka基因预测，注释COG、EC、RNA
批量截取基因序列
基因家族分析十（基因家族加倍分析）
根据基因组fa文件和gff文件提取cds并翻译成pep
根据基因组fa文件和gff文件提取cds并翻译成pep
gff to cds/pep
基因家族分析 | 番茄Nramp基因家族分析（一）
技巧 | 从 GFF 文件提取 CDS 并翻译成蛋白

import sys,getopt

#import语句用来导入其他python文件（称为模块module），使用该模块里定义的类、方法或者变量，从而达到代码复用的目的

#import module_name。即import后直接接模块名。在这种情况下，Python会在两个地方寻找这个模块，第一是sys.path,（通过运行代码import sys; print(sys.path)查看）.一般安装的Python库的目录都可以在sys.path中找到（前提是要将Python的安装目录添加到电脑的环境变量），所以对于安装好的库，我们直接import即可

def usage():

#def定义该脚本的用法，定义了一个usage()函数

print('usage:python3 removeRedundantProteins.py -i <in_fasta> -o <out_fasta> <-h>')

return

def removeRedundant(in_file,out_file):

gene_dic = {}

#创建一个空的字典

flag = ''

#flag一般就是标记、标识的意思

with open (in_file) as in_fasta:

#open(in_file)in_fine就是我们的输入文件

for line in in_fasta:

#line就是输入文件的每一行，通过for循环遍历输入文件

if '>' in line:

#如果fasta文件该行有>，则执行以下操作

line=line.split()

line=line[0]+"\n"

#print(line)

line1 = line.strip('>\n')

# print(line1)

#strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。

#移除带有>的行中的>和换行符

line2 = line1.split('.')

#这个是非常重要的，每个文件不一样，分割符也不一样，一般该脚本只需要改这个即可

#split() 通过指定分隔符对字符串进行切片，如果参数 num 有指定值，则分隔 num+1 个子字符串，

#对id分割，以-作为分割符；不同序列分割符可能不一致，大多是是以.分割

li = line2[0]

#print (li)

flag = li

# print(flag)

#捕捉异常可以使用try/except语句。

#try/except语句用来检测try语句块中的错误，从而让except语句捕获异常信息并处理。

#如果你不想在异常发生时结束你的程序，只需在try里捕获它。

try:

gene_dic[li]

except KeyError:

gene_dic[li] = [line]

# print (gene_dic[li])

#如果在try部分关键字发生了异常，执行这块代码

else:

gene_dic[li].append(line)

#没有发生异常，执行这块代码

#有异常的话可能是因为关键字必须是唯一的，但是存在可变剪切的话可能就不唯一了？所以引发异常？引发异常之后，赋值，将line

else:

gene_dic[flag][-1] += line

#print(gene_dic[li][0])

#gene_dic[flag]就相当于一个列表，在该列表中再找到最后一个值，那最后这个值就等于原先的最后一个值加上line

with open (out_file,'w') as out_fasta:

for k,v in gene_dic.items():

#print(v)

# items() 函数以列表返回可遍历的(键, 值) 元组数组。

if len(v) == 1:

#len() 方法返回列表元素个数。

#如果键只有一个，则表明不存在可变剪切，直接输出即可

out_fasta.write(gene_dic[k][0])

else:

#否则的话，就代表存在可变剪切，那么就需要对序列长度进行比较了，谁最大输出谁

trans_max = ''

for trans in gene_dic[k]:

#print(trans)

#遍历值

a = len(list(trans))

#print (a)

#list() 方法用于将元组或字符串转换为列表

#len()方法返回列表元素的个数

b = len(list(trans_max))

if a > b:

trans_max = trans

out_fasta.write(trans_max)

def main(argv):

try:

opts, args = getopt.getopt(argv,'hi:o:')

except getopt.GetoptError:

usage()

sys.exit()

for opt, arg in opts:

if opt == '-h':

usage()

sys.exit()

elif opt == '-i':

in_fasta_name = arg

elif opt == '-o':

outfile_name = arg

try:

removeRedundant(in_fasta_name,outfile_name)

except UnboundLocalError:

usage()

return

if __name__ == '__main__':

main(sys.argv[1:])

网友评论

本文标题：2021-05-21--Python脚本之对基因组cds去冗余

本文链接：https://www.haomeiwen.com/subject/yunijltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2021-05-21--Python脚本之对基因组cds去冗余

相关文章