美文网首页生信星球培训第十八期
学习小组Day7笔记--李蛤

学习小组Day7笔记--李蛤

作者: 噗嗤大魔王 | 来源:发表于2019-06-23 21:51 被阅读0次

    测序相关知识

    三代测序技术的比较
    • 测序过程和原理

    公司是怎样测序的,数据怎么来的?
    现在的测序平台基本都是illumina公司出品的,所以先看一下他们的原理介绍视频,查一下专业术语。
    原理:介绍视频 (密码:bxsry4),《测序的世界》,或搜狗微信搜索“测序原理”

    1. 早期测序(Sanger测序)

    设置四个反应体系1-4,分别加入引物、DNA聚合酶、四种dNTP、一定比例的ddNTP(带有放射性标记)。
    假如扩增过程中ddATP遇到了T位点,就结合并终止(因为ddNTP的2‘和3'都没有羟基),那么其他的dNTP就无法结合。在一个大规模样本中,ddNTP会结合所有位点,只是位点结合次数多少的问题 。
    最后利用凝胶电泳和放射自显影只能看到带有荧光标记的ddNTP,他们的排列顺序先利用电泳条带前后关系确定下,再用A-T, T-A, C-G, G-C关系反转一下,就能知道我们的测序序列。
    优点:准确率高;缺点:通量低、成本高

    1. 二代测序:循环阵列合成测序(NGS)

    主要平台有:
    1.罗氏454公司的GS FLX sequencer
    2.Illumina solexa genome analyzer
    3.ABI公司的SOLiD sequencer

    优点:提高速度、降低成本、保持高准确性;缺点;读长短、拼接困难,错误率增加

    1. 三代测序

    PacBio公司的SMRT
    Oxford Nanopore Technologies

    优点:不需要经过PCR扩增,超长读长,可实现了对每一条DNA分子的单独测序;缺点:错误率高,达到10-15%。

    • 都有哪些类型的测序

    入门:生信小白第6天-初涉测序生信小白第8天 名词结构化
    进阶:测序技术原理及常用数据格式简介DNA 测序技术的发展:第三代测序法测序发展史:150年的风雨历程,搜索【陈巍学基因】视频1
    以二代测序为例:

    flowcell: 测序反应的载体/容器,1个flowcell有8个lane
    lane: 测序反应的平行泳道,试剂添加、洗脱等过程的发生位置
    tile: 每次荧光扫描的位置,肉眼是看不到的
    双端测序: 可能序列比较长有四五百bp,两边各测120-150bp
    junction: 双端测序中间一些没有测到的区域
    flowcell构造:一个lane包含两列(swath),每一列有60个tile,每个tile会种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)

    流程:

    1. 构建DNA文库:超声波将DNA分子打断成300-800bp长序列片段,构成单链DNA文库。
    2. 上样:lane上随机分布两种接头,p5‘(与P5互补),P7(与P7'互补),待测序列自带了p5接头和p7接头
    3. 桥式PCR:

    第一轮扩增模版:flowcell表面固定的序列 --> 模版链,序列互补成双链
    去杂:加入NaOH强碱性溶液使双链DNA变性
    桥式形成: 加入缓冲溶液,互补链的p7‘和lane上的p7互补
    桥式PCR: PCR弯成桥状,一轮桥式扩增一倍
    循环: 大约35个循环后,最终每个DNA片段都将在各自的位置上集中成束,称为cluster,这是一群完全相同的序列。
    解链: 桥式PCR完成后,形成了很多的桥形的互补双链,再次强碱解链。

    1. 测序:一次加一个荧光碱基,用完失效
    2. 数据产生:图象校正、cluster识别、荧光校正、化学校正、碱基识别、PF(Illumina默认的数据过滤算法Pass Filtering)、质量评估
    3. 数据初步分析:使用fastqc进行质量分析
    • 下载与安装fastqc:

    wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
    mkdir FastQC
    unzip fastqc_v0.11.7.zip
    cd FastQC
    chmod 755 fastqc
    echo 'export PATH=/YOUR/FASTQC PATH/:$PATH' >> ~/.bashrc
    source ~/.bashrc
    fastqc --help
    
    • fastqc使用过程常用代码:

    基本格式:fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] seqfile1 .. seqfileN
    生成的报告文件的储存路径:-o output dir
    让程序不打包:--extract
    选择程序运行的线程数:-t --threads
    安静运行模式:-q
    结果分析:
    检查数据完整性:md5sum *.gz
    质控文件:fastqc *.gz -t 4
    导出结果:filezilla

    相关文章

      网友评论

        本文标题:学习小组Day7笔记--李蛤

        本文链接:https://www.haomeiwen.com/subject/lwgwqctx.html