美文网首页
2020-04-16 Chip-seq -1

2020-04-16 Chip-seq -1

作者: 致知_5974 | 来源:发表于2020-04-18 02:52 被阅读0次
    f4dfa885b6a56b2145a93971258914a.jpg
    今天上午Gary讲了chip-seq的处理流程(Gary课讲得太好,比心),和之前shiqi讲的刚好可以串接起来,之前断断续续看过一些Jimmy Zeng大神的帖子,正好借着这个机会把他们整理一下,知识碎片拼一拼。

    1.Ilumina测序原理

    flowcell 是指Illumina测序时,测序反应发生的位置,
    1个flowcell含有8条lanelane 每一个flowcell上都有8条泳道,用于测序反应,可以添加试剂,洗脱等等
    tile 每一次测序荧光扫描的最小单位
    reads 指测序的结果,1条序列一般称为1条
    readsbp base pair 碱基对,用于衡量序列长度
    双端测序 只一条序列可能比较长如500bp,我们可以两端每端各测150bp
    junction 上面说的双端测序,中间会留有200bp测不到的东西,我们叫junction
    adapter 就是测序中需要的一段特定的序列,有类似于引物的功能
    primer PCR中的引物
    illumina测序150bp长度的原因:
    1 酶的活性
    2 测序长度增加 杂信号会越来越多(想象有一部分一直在延迟)
    ------copy from 孟皓巍 知乎专栏
    
    

    疑惑:对于adaptor不是很了解,包括10X建库的adaptor,听小组会的时候一到这一部分就懵,需要研究一下。

    格式
    1、mapping
    input 下机的Fastq文件 构建好的index文件
    output Sam/Bam文件

    • Fastq
      对于下机的测序文件,我们想要知道在哪台机器上,哪一个flowcell,哪一个lane上面的测序,(鬼知道哪天哪台机器就出点什么问题,哪批flow cell质量不好,kidding),测得的序列具体是什么,以及测得的质量。这些都在Fastq文件上可以体现出来。
      WeChat Image_20200416211133.jpg
      对于质量值的解释,孟大神有很好的讲解。
      WeChat Screenshot_20200416210837.png
      其中,P指的是在测序仪进行测序的时候,会自动根据荧光信号的强弱给出一个参考的测序错误概率(error probility,P)。为了方便储存,对P 进行了数学变换,得到Q,对Q进行加33或者64得到Phred值,然后将Phred值于ASCII表对应来表示碱基的质量。搞这么复杂,目的就是为了用较小的存储位数表示较广的碱基质量范围。
      那么,大名鼎鼎的Q30,是什么意思呢?
      当Q =30的时候,Phred =30+33 =63 对应的ASCII 值为?
      相应的当Q =30时,根据上面的公式,P=0.1%
      就是说,当reads测序标准是 Q30的时候,每一个碱基的测序的准确率是99.9%,对应的测序质量值是“?”及以后,大部分看到的应该是字母。
      参考阅读:https://zhuanlan.zhihu.com/p/20731723

    相关文章

      网友评论

          本文标题:2020-04-16 Chip-seq -1

          本文链接:https://www.haomeiwen.com/subject/lgdsvhtx.html