写一个脚本,完成以下任务:
有一个文本文件A如下:barcode.fa,其中包含了若干长度8bp至11bp的DNA序列。
>bc1_0
GTTTGTTT
>bc1_1
ACCGTGTTT
>bc1_2
GATAGTGTTT
>bc1_3
TGAGGCGGTTT
>bc1_4
GATCGTTT
>bc1_5
ATCACGTTT
>bc1_6
GATGTAGTTT
>bc1_7
TGACACAGTTT
>bc1_8
CTTTCTTT
>bc1_9
AGCCTCTTT
>bc1_10
GACGGGCTTT
另有一个fastq文件B,fastq文件不做介绍了。
要求对此fastq文件进行处理,输出满足以下条件的序列:
1)序列的前8bp-11bp与前述文本文件A中的DNA序列hamming distance不大于2;
2)能够唯一匹配到文本文件A中的某一条DNA序列
(例如,如果fastq中某条序列的前8bp-11bp在文本文件中没有完全匹配的DNA序列,而在A文件中有两条或以上的DNA序列的hamming distance为1,则抛弃该序列)。
注意:
主要是在没有0的情况下,多于1个barcode的hamming distance等于1,或者在没有0和1的情况下,多于一个barcode的hamming distance等于2,都是不应该输出的。
有多个barcode跟同一个read的hamming distance都在2以内,这个也分很多种情况,比如,没有barcode的distance是0,但是又1个barcode的distance 是1,n(n>1)个barcode的distance是2,这个时候最小的distance是1,且只跟1个barcode有这个最小值,那么就应该输出。另一个例子,如果没有barcode的distance是0,有2个barcode的distance是1,那就不该输出。
计算hamming 距离
汉明距离是使用在数据传输差错控制编码里面的,汉明距离是一个概念,它表示两个(相同长度)字对应位不同的数量,我们以d(x,y)表示两个字x,y之间的汉明距离。对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离。from 维基百科https://zh.wikipedia.org/wiki/%E6%B1%89%E6%98%8E%E8%B7%9D%E7%A6%BB
直接上代码:
import gzip
from Bio import SeqIO
import itertools
# 定义函数计算hanming distance。
def hamming(str1, str2):
return sum(itertools.imap(str.__ne__, str1, str2))
# 处理fasta文件,将id与seq存储为dict
def deal_dna_file(a,):
dna_dict = {}
for record in SeqIO.parse(a,"fasta"):
dna_dict[record.id] = record.seq
return dna_dict
A_DNA_file = sys.argv[1]
B_fastq_file = gzip.open(sys.argv[2],"r")
# B_fastq_file = open(sys.argv[2],"r")
dna_dict = deal_dna_file(A_DNA_file)
# print dna_dict
# 遍历fastq文件去处理每行序列
for record in SeqIO.parse(B_fastq_file, "fastq"):
a = 0
b = 0
# 遍历dict,去判断hamming距离,分0,1,2三种情况,记录距离为1,和2的次数,根据次数去判断。
for k,v in dna_dict.items():
if a >1:
break
if hamming(v,record.seq[:len(v)]) == 0:
print record.seq
elif hamming(v,record.seq[:len(v)]) == 1:
a +=1
elif hamming(v,record.seq[:len(v)]) ==2:
b +=1
print a,b
if a == 1 and b > 1: # one barcode distance is 1 and more than one barcode distance are 2
print record.seq
if a == 1 and b == 0: # only barcode distance is 1.
print record.seq
if a == 0 and b == 1: # only barcode distance are 2.
print record.seq
这样就符合要求了,有bug请反馈。
生信学习者练习题;
网友评论