美文网首页生信笔记
根据汉明距离拆barcode

根据汉明距离拆barcode

作者: 11的雾 | 来源:发表于2018-07-11 09:39 被阅读13次

写一个脚本,完成以下任务:
有一个文本文件A如下:barcode.fa,其中包含了若干长度8bp至11bp的DNA序列。

>bc1_0
GTTTGTTT
>bc1_1
ACCGTGTTT
>bc1_2
GATAGTGTTT
>bc1_3
TGAGGCGGTTT
>bc1_4
GATCGTTT
>bc1_5
ATCACGTTT
>bc1_6
GATGTAGTTT
>bc1_7
TGACACAGTTT
>bc1_8
CTTTCTTT
>bc1_9
AGCCTCTTT
>bc1_10
GACGGGCTTT

另有一个fastq文件B,fastq文件不做介绍了。
要求对此fastq文件进行处理,输出满足以下条件的序列:
1)序列的前8bp-11bp与前述文本文件A中的DNA序列hamming distance不大于2;
2)能够唯一匹配到文本文件A中的某一条DNA序列
(例如,如果fastq中某条序列的前8bp-11bp在文本文件中没有完全匹配的DNA序列,而在A文件中有两条或以上的DNA序列的hamming distance为1,则抛弃该序列)。
注意:
主要是在没有0的情况下,多于1个barcode的hamming distance等于1,或者在没有0和1的情况下,多于一个barcode的hamming distance等于2,都是不应该输出的。
有多个barcode跟同一个read的hamming distance都在2以内,这个也分很多种情况,比如,没有barcode的distance是0,但是又1个barcode的distance 是1,n(n>1)个barcode的distance是2,这个时候最小的distance是1,且只跟1个barcode有这个最小值,那么就应该输出。另一个例子,如果没有barcode的distance是0,有2个barcode的distance是1,那就不该输出。

计算hamming 距离
汉明距离是使用在数据传输差错控制编码里面的,汉明距离是一个概念,它表示两个(相同长度)字对应位不同的数量,我们以d(x,y)表示两个字x,y之间的汉明距离。对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离。from 维基百科https://zh.wikipedia.org/wiki/%E6%B1%89%E6%98%8E%E8%B7%9D%E7%A6%BB
直接上代码:

import gzip
from Bio import SeqIO
import itertools
# 定义函数计算hanming distance。
def hamming(str1, str2):
  return sum(itertools.imap(str.__ne__, str1, str2))
# 处理fasta文件,将id与seq存储为dict
def deal_dna_file(a,):
    dna_dict = {}
    for record in SeqIO.parse(a,"fasta"):
        dna_dict[record.id] = record.seq
    return dna_dict

A_DNA_file = sys.argv[1]
B_fastq_file = gzip.open(sys.argv[2],"r")

# B_fastq_file = open(sys.argv[2],"r")
dna_dict = deal_dna_file(A_DNA_file)
# print dna_dict
# 遍历fastq文件去处理每行序列
for record in SeqIO.parse(B_fastq_file, "fastq"):
    a = 0
    b = 0
    # 遍历dict,去判断hamming距离,分0,1,2三种情况,记录距离为1,和2的次数,根据次数去判断。
    for k,v in dna_dict.items():
        if a >1:
            break
        if hamming(v,record.seq[:len(v)]) == 0:
            print record.seq
        elif hamming(v,record.seq[:len(v)]) == 1:
            a +=1
        elif hamming(v,record.seq[:len(v)]) ==2:
            b +=1
    print a,b
    if a == 1 and b > 1: # one barcode distance is 1 and more than one barcode distance are 2
        print record.seq
    if a == 1 and b == 0: # only barcode distance is 1. 
        print record.seq
    if a == 0 and b == 1: # only barcode distance are 2.
        print record.seq

这样就符合要求了,有bug请反馈。
生信学习者练习题;

相关文章

  • 根据汉明距离拆barcode

    写一个脚本,完成以下任务:有一个文本文件A如下:barcode.fa,其中包含了若干长度8bp至11bp的DNA序...

  • 汉明距离、超立方体、异或的一些知识

    汉明距离和汉明重量 汉明距离是以理查德·卫斯里·汉明的名字命名的。在信息论中,两个等长字符串之间的汉明距离是两个字...

  • LeetCode 461.汉明距离

    ?博客原文 :《LeetCode 461.汉明距离 - JavaScript》 汉明距离定义:两个整数之间的汉明距...

  • 汉明距离

  • 汉明距离

    两个整数之间的汉明距离指的是这两个数字对应二进制位不同的位置的数目。 给出两个整数 x 和 y,计算它们之间的汉明...

  • 汉明距离

    指的是两个(相同长度)字符串,你变成我,我变成你,需要换掉多少个字符的总和,即Max(Sum1,Sum2),比如...

  • 汉明距离

    题目来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/hamm...

  • 汉明距离

    https://zhuanlan.zhihu.com/p/94081111pHash简单来说,是通过感知哈希算法对...

  • 汉明距离

    题目: 题目的理解: 将整数转化为二进制,然后再转化为字符串,进行字符串比较,得到不同的位数。 python实现 ...

  • 汉明距离

    两个整数之间的汉明距离指的是这两个数字对应二进制位不同的位置的数目。 给出两个整数 x 和 y,计算它们之间的汉明...

网友评论

    本文标题:根据汉明距离拆barcode

    本文链接:https://www.haomeiwen.com/subject/afbcpftx.html