美文网首页生信星球培训第八十四期
学习小组Day7笔记--strengthen

学习小组Day7笔记--strengthen

作者: strengthen_1552 | 来源:发表于2020-10-19 09:31 被阅读0次

    课程的最后一天了,先感谢花花老师耐心的教授,让我对生信有了一定的了解,虽然以后学习过程依旧是路途漫漫,但指引方向的人最可爱-.

    测序技术

    到目前为止测序技术一共经历三次更新个,主要特点是测序数据量越来越大,所用时间越来越快,测序费用越来越廉价。伴随着计算机技术的发展,我们所能挖掘到的数据信息也越来越全面。

    第一代测序技术

    由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应。在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP,得到片段大小不一致的DNA混合物,然后通过凝胶电泳分离和放射自显影后识别确定待测分子的DNA序列。

    第二代测序技术

    边合成边测序(Sequencing by Synthesis,SBS)
    在Sanger等测序方法的基础上,通过技术创新,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。

    第三代测序技术

    即单分子实时DNA测序。DNA测序时,不需要经过PCR扩增,实现了对每一条DNA分子的单独测序,凭借超长的读长和可直接检测表观修饰等特点使其成为市场的新宠。
    也采用边合成边测序方法,以SMRT芯片为测序载体,芯片上众多小孔中的DNA聚合酶和模板结合,4色荧光标记4种碱基(dATP,dTTP,dCTP,dGTP),在碱基配对阶段,加入不同碱基会发出不同的光,根据光的波长与峰值可判断进入的碱基类型。另外,若碱基存在修饰,则通过聚合酶的速度会减慢,因此可以通过检测相邻两个碱基之间的测序时间、两峰之间的距离来检测甲基化等碱基修饰情况。SMRT测序速度快(每秒约数个dNTP),但是,测序错误率也较高(达到15%,可通过多次测序进行有效的纠错)。

    测序数据的格式

    一般为Fastq 和Fasta格式,也包括GenBank 和 EMBL

    Fastq格式

    一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
    第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
    第二行:碱基序列;
    第三行:由‘+’开始,后面是序列的描述信息;
    第四行:第二行序列的质量评价(quality value)。
    @HISEQ:777:HCMCVBCX2:1:1101:4712:2186 1:N:0:TACTCCAG
    HISEQ:仪器 ID
    777:Run ID
    HCMCVBCX2:FlowCell ID
    1:The lane number
    1101:流通池道内的tile号码
    4712:瓦片中的集群的‘x'坐标
    2186:瓦片中的集群的’y'坐标
    1:成对的成员,1或2(配对结束或配对读取)
    N:如果读取过滤,则为Y;否则为N
    0:当没有控制位开启时为0,否则为偶数
    TACTCCAG:索引序列

    Fasta格式

    1:以“>”为开头,fasta格式标志。
    2:序列ID号,gi号,NCBI数据库的标识符,具有唯一性。
    格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
    3:序列描述。
    4:碱基序列,序列中允许空格、换行、空行,一般一行60个。

    Fastq文件→Fasta文件
    Linux命令
    法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
    法2:seqtk seq -A input.fastq > output.fasta

    FASTX-Toolkit
    •一款用于处理Short-Reads FASTA/FASTQ文件的程序,里面包含了丰富的Fasta/Fastq文件格式转换、统计等命令。
    http://hannonlab.cshl.edu/fastx_toolkit/

    GenBank格式

    以LOCUS和一些注释行开始。
    序列的开头以“ORIGIN”标记,末尾以“//”标记。

    EMBL格式

    以标识符行(ID)开头,后面跟着更多注释行。
    序列的开头以“SQ”开头标记,序末尾以“//”标记。
    另外生信星球推荐了两款在线工具用于处理序列数据
    1.EMBL → Fasta格式转换(在线工具):
    http://www.geneinfinity.org/sms/sms_embltofasta.html
    2.常见测序文件格式解析的网站:
    https://genome.ucsc.edu/FAQ/FAQformat.html#format1

    测序知识1.jpeg

    相关文章

      网友评论

        本文标题:学习小组Day7笔记--strengthen

        本文链接:https://www.haomeiwen.com/subject/orxkmktx.html