首先声明,作为大学时的生物狗和工作时的挨踢狗,实非基因测序的专业人士。
再说说写这篇文章的缘由,华大基因的BGISEQ-500,自从15年10月发布会以来,就鲜有报道,但作为一款身负基因测序平民化重任的产品,却十分吸引我的眼球。最近心血来潮,打算给自己做个全基因组测序,看了下现有的服务报价,近4万元的价格,艾玛,看不下去了,于是就想起了半年前这款号称平民的产品,却在公开信息中始终查不到价格,回看发布会中价格比同类产品低1/3的宣传,首先想到illumia的HiSeq 2500,这个价格好查,74万美元,艾玛,看不下去了,后来发现选错对象了,NexSeq 500无论从名字还是定位上才是BGISEQ-500的对标,35万美元的价格,砍掉1/3也是100多万软妹币啊,艾玛,买不起总能看看吧,原理先要搞清楚,说不定哪天就买得起了,于是在seq500官网查到以下信息:
BGISEQ-500五大关键技术解读
视频看不懂没关系,一开始我也没看懂,于是才有了这篇文章。
总结视频中基因测序的步骤:
1. DNA提取与分段
准备样本 -> DNA提取 -> DNA分段 -> DNA片段末端修复 ->
2. DNA片段扩增(纳米球技术)
加接头序列 -> 分离出单股DNA -> 成环 -> 滚环扩增 -> 形成DNA纳米球
3. DNA序列识别
DNA纳米球附着芯片 -> 组合探针锚定连接法测序
4. 分析
碱基读取 -> 数据比对和组装 -> 基因组 -> 结果分析
文字也看不懂?那只能听我瞎掰了,哈哈
抛开细节,只看做了什么和为什么这么做,准备样本和DNA提取不用说了,干活总要把家伙先掏出来吧,为什么要分段,让你看100万字的书不可能一气儿看完,30亿个碱基对也要分开来读,而且碱基那么小,处理和读取时丢失和读错的可能性很大,于是就要多读几遍,反复验证,方法就是把书拆成一页一页,每页都复制个上百遍,装订成小册子(纳米球),那么为什么还要末端修复,因为你拆书的时候总有不小心撕坏书角,丢失了文字,那丢了还怎么修复,因为DNA特殊啊,自带备份,著名的双螺旋结构就是一份信息,两份拷贝,只要另一份拷贝还在,就能根据它还原缺失的书角,后面的加接头序列、分离出单股DNA、成环、滚环扩增都跟DNA的双螺旋结构有关,加接头就是复制书页前标识书页的开头结尾,以便复制后仍能准确地区分拷贝,既然要大规模复制了,只需要一份拷贝就可以了,于是就分离出单股DNA,成环是方便之后的滚环扩增,DNA成了环形,就能让DNA聚合酶绕着环不停地转圈,复制出的上百份拷贝都在一股新DNA上,就像一股毛线卷成了毛线团一样,最后成了纳米球(DNB, DNA Nano Ball)。
完成了书的复制,接下来就要读书了,这里还需要两样关键东西,书桌和眼睛,芯片就是书桌, 问题来了,书已经拆成一页一页了,复制后每一页都是一本书,这么多书都放桌上?对的,书不仅都要放上,而且都要摊开固定,一本一本摆得整整齐齐,这就需要芯片上有整齐的固定点,让纳米球自动附着上去,且不会堆叠,这个就是阵列技术(Pattern Array)。而眼睛是读书的核心,虽然是一个词,却是一整套技术,先把术语抛出来,回头我整明白了再慢慢解释,哈哈,组合探针锚定连接法(cPAS)。
而最关键的分析,就是你还得有个脑子去读懂内容,这里跟普通读书最重要的区别,除了要读n多遍重复的内容之外,你还不是按顺序读的,书没有页码,在拆书的过程中,页的顺序也被打乱了,你现在只有拼图的一些碎片,而任务是先要把读到的片段拼成一本书,好在这些片段都有一些线索,它们会有重叠的部分,至于为什么会有重叠的部分,我还没搞清楚,而这些重叠信息让你能像拼图一样把片段拼接起来,至于会不会有两个长得像的片段被放错了地方,我还没搞清楚,最后的结果是你得到了基因组,还原了这本书,至于你是否读得懂,那又是另一回事,就像一句名言所说,你认得书中的每一个字母,但就是不知道这本书在说什么,后基因组时代的基因组学是一个令人兴奋的浩瀚领域,我们才刚刚入门。
结合视频,我们用纯技术语言重新解释上面提到的三个关键技术(搬砖):
DNB技术
BGISEQ-500技术视频之DNB
基因组DNA首先经过片段化处理,再加上接头序列,并环化形成单链环状DNA,随后使用的滚环扩增技术(Rolling circle amplification, RCA)可将单链环状DNA扩增2-3个数量级,所产生的扩增产物称为DNA纳米球(DNA nanoball, DNB),最终纳米球经过DNB装载技术固定在阵列化的硅芯片上。
与其他二代测序技术相比较,DNB测序技术具有以下几个优势:
(1)DNB通过增加待测DNA的拷贝数而增强了信号强度,从而提高测序准确度;
(2)不同于PCR指数扩增,滚环扩增技术的扩增错误不会累积;
(3)DNB与芯片上活化位点的大小相同,每个位点只固定一个DNB,保证信号点之间不产生相互干扰;
(4)阵列化测序芯片和DNB测序技术的结合,使得成像系统像素和测序芯片的面积得到最大化利用。
Pattern array技术
BGISEQ-500视频解读之Pattern Array
华大基因测序芯片的规则阵列(PatternArray)采用先进的光刻和干法刻蚀技术,在硅片表面形成阵列和对准标记,通过“涂敷深紫外光刻胶--阵列图案曝光—显影暴露局部硅表面—汽相沉积(氨基硅烷修饰)”系列处理,来实现DNA纳米球的固定。硅片最后被分切成25mmX 75mm的小片,成为测序芯片的基底。
cPAS技术
BGISEQ-500视频解读之cPAS
首先DNA分子锚和荧光探针在DNB上进行聚合,随后高分辨率成像系统对光信号进行采集,光信号经过数字化处理后即可获得待测序列。为了实现快速测序这一目标,生化团队探索并优化了大量反应条件,并从上万个酶突变体中筛选得到最优秀的测序酶,使生化反应时间缩短到60秒完成。此外,算法团队的实时图像处理软件,通过自主开发的Sub-pixelRegistration算法,使图像配准精确度达到了亚像素级别,大大提高了碱基识别的准确度;同时,通过Multi-threadparallel compression算法以及对执行效率的优化,实现了图像处理和碱基识别的实时化,数据处理速度处于同行业领先水平。
参考:
网友评论