学习小组DAY7笔记--Peng

作者: Peng_001 | 来源:发表于2019-10-16 00:56 被阅读0次

    思维导图

    • 测序魔鬼集中营


      1.7.1 生信学习【测序类型大杂烩】DAY7.png

    正式笔记

    1)几代测序技术和illumina原理见思维导图

    2)数据产生

    1.7.2 Hiseq 2000测序仪
    workflow:

    从荧光信号的产生到碱基序列的识别这一过程,主要包括图象校正(即空间校正)、cluster识别、荧光校正(即光学校正)、phasing/prephasing(即化学校正)、碱基识别、PF(Illumina默认的数据过滤算法Pass Filtering)、质量评估等7个步骤

    照相机的识别:

    利用了CCD相机(1)对每一个簇(cluster)进行识别,确定其坐标;(2)提取每个簇分别在A、G、C、T四个波长的信号强度值。

    • 拍照过程相当耗时,一次循环所产生的信号需要40分钟左右才能拍照收集完毕。使用相机的扫描功能会更快一些。
    数据量产出:

    测序仪搭配了两个flowcell,简称双流动槽。比较经典的Hiseq2500一次能产出700-800Gb数据(此处Gb为测序碱基数,不同于字节数的Gb)。

    • 关于数据转换,举个例子比较好理解:以人类基因组为例,包括30亿碱基对(bp),测序深度30x的话,就会有900亿碱基对(=1800亿字母)=90G测序量;900亿个碱基对/150(测序策略PE150)=6亿条reads(=60Mreads);6亿条reads x 45(reads长度)= 2700亿 字母;
      每个字母=1字节,换算成计算机大小就是:2700亿字节/(1024 x1024 x1024)=192.7837G存储(非常大的数据量了)

    给未来的问题

    1. 为什么测序中读取index 就能提高效率知道其来自何处。
    2. 接头的设计和连接原理。
    3. 测序技术原理及常用数据格式简介有哪些?
    4. 如何进行数据分析?

    参考:
    生信公众号 生信星球 教程
    【陈巍学基因】视频1:Illumina测序化学原理
    《测序的世界》 刘小泽 的简书

    相关文章

      网友评论

        本文标题:学习小组DAY7笔记--Peng

        本文链接:https://www.haomeiwen.com/subject/tzgdmctx.html