生物信息相关格式

作者: MR来了 | 来源:发表于2021-03-17 13:35 被阅读0次

生物信息相关格式
生物信息相关网站
csvtk | 命令行下表格统计分析、数据筛选、替换、整理神器
生物信息分析常用文件格式和软件
生物信息常用文件格式
Sam/Bam文件格式详解
暑期社会实践第四日
生物信息常见数据格式
Bioconvert(interconversion of bi
文件格式——FASTA

sam里面的CIGAR值

CIGAR string，可以理解为reads mapping到第三列序列的mapping状态，
对于mapping状态可分为以下几类：
M：alignment match (can be a sequence match or mismatch)
表示read可mapping到第三列的序列上，则read的碱基序列与第三列的序列碱基相同，表示正常的mapping结果，M表示完全匹配，但是无论reads与序列的正确匹配或是错误匹配该位置都显示为M
I：insertion to the reference
表示read的碱基序列相对于第三列的RNAME序列，有碱基的插入
D：deletion from the reference
表示read的碱基序列相对于第三列的RNAME序列，有碱基的删除
N：skipped region from the reference
表示可变剪接位置
P：padding (silent deletion from padded reference)
S：soft clipping (clipped sequences present in SEQ)
H：hard clipping (clipped sequences NOT present in SEQ)
clipped均表示一条read的序列被分开，之所以被分开，是因为read的一部分序列能匹配到第三列的RNAME序列上，而被分开的那部分不能匹配到RNAME序列上。
"="表示正确匹配到序列上
"X"表示错误匹配到序列上
而H只出现在一条read的前端或末端，但不会出现在中间，S一般会和H成对出现，当有H出现时，一定会有一个与之对应的S出现
例如：
162M89S
162H89M
149M102S
149H102M
40S211M
20M1D20M211H
S可以单独出现，而H必须有与之对应的S出现时才可能出现，不可在相同第一列的情况下单独出现
N：如果是mRNA-to-genome，N出现的位置代表内含子，其它比对形式出现N时则没有具体解释
M/I/S/=/X：这些数值的加和等于第10列SEQ的长度
————————————————
版权声明：本文为CSDN博主「genome_denovo」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/genome_denovo/article/details/78712972

python 碱基互补

def DNA_complement1(sequence):
    # 构建互补字典
    comp_dict = {
        "A":"T",
        "T":"A",
        "G":"C",
        "C":"G",
        "a":"t",
        "t":"a",
        "g":"c",
        "c":"g",
        "Y":"R",
        "R":"Y",
        "S":"S",
        "N":"N",
        "B":"V",
        
    }
    #求互补序列
    sequence_list = list(sequence)
    sequence_list = [comp_dict[base] for base in sequence_list]
    string = ''.join(sequence_list[::-1])  ## 反向
    return string