今天上午Gary讲了chip-seq的处理流程(Gary课讲得太好,比心),和之前shiqi讲的刚好可以串接起来,之前断断续续看过一些Jimmy Zeng大神的帖子,正好借着这个机会把他们整理一下,知识碎片拼一拼。
1.Ilumina测序原理
flowcell 是指Illumina测序时,测序反应发生的位置,
1个flowcell含有8条lanelane 每一个flowcell上都有8条泳道,用于测序反应,可以添加试剂,洗脱等等
tile 每一次测序荧光扫描的最小单位
reads 指测序的结果,1条序列一般称为1条
readsbp base pair 碱基对,用于衡量序列长度
双端测序 只一条序列可能比较长如500bp,我们可以两端每端各测150bp
junction 上面说的双端测序,中间会留有200bp测不到的东西,我们叫junction
adapter 就是测序中需要的一段特定的序列,有类似于引物的功能
primer PCR中的引物
illumina测序150bp长度的原因:
1 酶的活性
2 测序长度增加 杂信号会越来越多(想象有一部分一直在延迟)
------copy from 孟皓巍 知乎专栏
疑惑:对于adaptor不是很了解,包括10X建库的adaptor,听小组会的时候一到这一部分就懵,需要研究一下。
格式
1、mapping
input 下机的Fastq文件 构建好的index文件
output Sam/Bam文件
- Fastq
对于下机的测序文件,我们想要知道在哪台机器上,哪一个flowcell,哪一个lane上面的测序,(鬼知道哪天哪台机器就出点什么问题,哪批flow cell质量不好,kidding),测得的序列具体是什么,以及测得的质量。这些都在Fastq文件上可以体现出来。
WeChat Image_20200416211133.jpg
对于质量值的解释,孟大神有很好的讲解。
WeChat Screenshot_20200416210837.png
其中,P指的是在测序仪进行测序的时候,会自动根据荧光信号的强弱给出一个参考的测序错误概率(error probility,P)。为了方便储存,对P 进行了数学变换,得到Q,对Q进行加33或者64得到Phred值,然后将Phred值于ASCII表对应来表示碱基的质量。搞这么复杂,目的就是为了用较小的存储位数表示较广的碱基质量范围。
那么,大名鼎鼎的Q30,是什么意思呢?
当Q =30的时候,Phred =30+33 =63 对应的ASCII 值为?
相应的当Q =30时,根据上面的公式,P=0.1%
就是说,当reads测序标准是 Q30的时候,每一个碱基的测序的准确率是99.9%,对应的测序质量值是“?”及以后,大部分看到的应该是字母。
参考阅读:https://zhuanlan.zhihu.com/p/20731723
网友评论