美文网首页
来自得到-卓克专栏

来自得到-卓克专栏

作者: 正义的化身 | 来源:发表于2018-06-03 12:29 被阅读67次

    冒着被得到举报的风险,转一篇卓老板的文章。

    最开始听卓老板的专栏是在喜马拉雅上,当时的卓老板聊科技专栏内容也比较系统,当然时间也比较长。现在得到的专栏和用户的互动比较多,和生活息息相关的内容也比较多。各有伯仲,我还是偏爱之前比较系统的内容。觉得文章不错的同学,可以现在喜马拉雅上听听卓老板聊科技第一季的内容。


    很多同学都问到,基因检测是不是骗人的,是不是忽悠人的,这次答疑我们就说说基因检测值不值得做?

    我先说总的原则,对一个性状,或者对一个疾病,相关基因的外显子的测序,凡是这个级别和这个级别以上的测序是可以做的,但是现在做并不值。凡是在这个级别之下的都属于是泡沫,根本不用去做。凡是在这个级别之下,如果你做了,它的价值大概跟算命、相面是差不多的。

    那我们要仔细解释一下上面这段话,这句的背后好像暗含着基因检测是分级别的,虽然大家都叫“基因检测”这4个字,但真正干的事情有高有低,有优劣之分。

    确实是这样的,这也是现在这个行业泡沫严重的表现,有极少数的公司可以提供高质量有水平的检测和解读,绝大多数公司都是在做忽悠人的事,以至于现在有很多有实力的公司也都得纷纷推出忽悠人的服务,和其他公司来争夺市场。

    同样是叫基因检测,水平差的可能跟摆摊算命给出的预测结果的可靠度差不多,水平好的甚至是可以帮医生在临床用药和手术中作决策。

    值得做的基因检测

    我们先说说值得做的那些基因检测,它们的共同特征就是真实地去测了大段大段的 ATCG 碱基的排序。你可能听了都觉得奇怪,基因不就是 ATCG 这些碱基的序列组成的嘛,基因检测难道不是去测这些具体的序列的排布吗?

    基因的双螺旋结构

    是的,只有极少部分的基因检测才会去测这个,剩下的都不测,因为测这个成本比较高,也因为测得太贵,所以肯定不是一测就把人体的31个碱基序列全都给测出来,而是只针对高度怀疑有可能致病的那些基因序列测了测,它可能是一段几千或者是几万个碱基序列的数据,而不是30亿个。

    比如说安吉丽娜·朱莉在2015年做的那个基因检测,后来就根据检测结果切除了双侧的乳腺。她当年就是对 BRCA1 和 BRCA2 这两个基因的全长作了检测,两个基因分别是有8万多个碱基和7万多个碱基。

    这个案例简直是一个太完美的广告宣传了,首先她是一个以美貌出名的女性,其次手术的部位就容易让人浮想联翩。再次,她是凭借基因检测躲过了一次将在她50岁后注定会发生在她身上的癌症,所以这都可以算捡回了一条命。

    这种事就算是那些平时对医学、对生物完全不了解的人都忍不住继续想下去,难道这大美女今后胸前就是平坦的吗?

    其实这些人可能都不知道乳腺对于乳房来说这大小的比例是什么样的,但是宣传效果确实突出了,以至于现在相当多的泡沫式的基因检测的宣传文案中都打着安吉丽娜·朱莉的旗号作宣传,比如说同款什么的。

    实际情况是类似 BRCA1、BRCA2 这种突变导致乳腺癌、卵巢癌的高发,就这样一两个基因就能注定今后某种致死疾病的,这种案例非常罕见。即便有,大多数都是在出生之后不久,就因为发病夭折了,根本等不到长大了去作检测才能发现。凡是有这种问题的人,他们出生之后几个月,仅凭肉眼就能观察出异常了,然后送到医院去检查,马上就能确诊。而且出生缺陷严重的时候,这个孩子可能几岁都活不过,就早早夭折了,能像安吉丽娜·朱莉这样,在37岁的时候作的检测,发现会有癌症高发,然后作预防,这样的基因还真是不多见。

    除了刚才说的 BRCA1、BRCA2 之外,还有像华大基因,现在有针对几十种原癌基因的检测。除此之外,几乎就没有了。

    所以真的要检测,你就去测这些,这些病的高发和基因序列的特征已经经过了大规模的广泛的医学界的确认了,它们之间不只有高度的相关性,还都找到了致病机理,也就是说连因果关系也差不多确认了。所以,这类的基因检测测完了之后,对医生要不要做手术,或者是要不要提前作预防,这都是有临床价值的。

    这个虽然好,但是价格都很贵。而且,现在还有比这个更贵的,因为这个只测几个基因,更贵的就是测整个身体所有外显子的序列。

    基因编码结构示意图

    大家知道,人体的基因一共是31个碱基,其中只有2%是外显子,剩下的98%都叫内含子。外显子和内含子的差异就是外显子最终会表达成蛋白质,内含子不会。而生物实现功能靠的就是蛋白质,所以只测外显子也就等于说抓住了主要部分,测序的工作量也能减少98%。

    当然,比外显子测序更贵的、更全面的就是一个人的全基因组测序了,其实人类科学界曾经在1990年的时候,100多个团体组织通力合作,完成过人类基因组计划,这个计划历时了15年,在2005年才差不多完成,这就是今天我们假如去做全基因组测序,这项服务要给你做的事情。

    这种测序就是不管你是外显子,还是内含子,也不管是那些已经跟某些疾病有确定因果关系的,还是说只有统计相关关系的,甚至根本就不知道有什么作用的片段,统统都给你测出来。可是这么测完之后,能给出的相关的解读,也仅仅是那些当前对临床治疗有价值的解读,所以它就跟只测那几个已经跟疾病有因果关系的致病基因的测序给出的解读是一样多的。可是,全基因组测序却多花了好几倍的钱,所以几乎很少有人去做全基因组测序。

    虽然解读少,但是你把它全测完了,今后也有用。当前基因对人体的影响,这种解读虽然还很弱,但今后这方面的发展一定是飞速的,新的成果一定能让这些已经测完的序列呈现出新的价值,所以有很多的基因测序公司都承诺终身解读,这也是你测完了,对很多序列我们现在还没法解读的一种价值上的弥补。这就好像我们发掘出了一套几万册的古巴比伦时代的文字记录,详细记录了那几千年来的历史。虽然我们当前只能读懂其中几个章节,那几万册书大部分都是看不懂的。但只要这些资料存在,它就是有巨大的价值的潜能。

    以上这些就是可以做的。

    不值得做的基因检测

    下面我来说说大多数基因检测,也就是那些不值得做的检测,为什么不值得做。

    它们都是基于 SNP 的技术,SNP 是单核苷酸多态性的缩写。

    什么意思呢?

    比如说有一段基因,基因中有一个片段,这个片段叫 AAGCCT,这是大部分人的情况,结果发现有少部分人这一片段是 AAGCTT,倒数第二个从 C 变成 T 了,那么这两个就算作是一对具有多态性的等位基因。

    我们都是人类,所以碱基的排序应该是高度一致的,但就是因为具有多态性的等位基因才让我们产生了差异,比如说有人单眼皮,有人双眼皮,有人的舌头两侧可以翘起来卷舌,有人不行。

    这些差异在基因上有多少呢?

    大约是每1000个碱基,有1个多态位。所以人体一共有300万个左右的多态位,这一下就比全基因组测序这30亿个要少太多太多工作量了。而且,即使是多态位,80%的多态位都是处于那些非编码区,所以真正有可能去测的位点也就是60万个。

    但即便是在编码区,也不意味着不同点位就可以在宏观上像数学函数一样,一一映射出一个性状来。在 SNP 位上的绝大部分的不一样是很难从宏观上看出有什么差异的,但是我们也有办法,因为现在的大数据应用让科学家们对这些多态位有了新的分析方法,那就是我们不那么费劲地非得从分子生物学的机理一点一点分析,这些不同的分子层面上导致的蛋白质水平上的什么不同,然后又从蛋白质的不同再分析出在组织器官上能发挥出什么不同,这么做基本是行不通的。

    那我们现在就是通过大数据直接找不同的 SNP 位和不同人群的特质的相关性,所以这就需要两个大数据库了。一个就是对从前测过的 SNP 的一个积累,还有一个是人的特质的一个大库。希望能从 SNP 组合出来的图样的特征对应到人的特征,找到这些对应特征之后,再有人来测试的时候,发现他的 SNP 的图样跟某个已经总结好的特征是高度吻合的,那么在检测报道里就会给你写,你在某某方面比46%的人更强,这些基因检测的解读报告就是这么生成的。这些相关的映射,小公司很多都是从公开的数据库或者论文里找些资料当作依据,大公司才会自己积累足够多的数据作分析,因为他们测试的人多,所以分析也有可能做得会更好一些。

    但即便是更好,测出来的结果本质上都是一些在自己定制的规则下的相关性统计,可是这些公司全都把这些相关性用了一种看上去好像是因果关系的逻辑表述了出来。

    比如说某某人患某某病的概率比其他人高了75%,或者是某某人有弹钢琴的天赋,或者数学逻辑能力强、 记忆能力强,或者睡眠需求强等等等等,就这些预测。

    那这些预测的准确率有多高呢?

    我们来举个例子,大家来看看下面这张图,密密麻麻的全是字。

    这是一篇大概包含了5000个字母的意大利语的文章,大多数人不知道这篇文章说的是什么,这就像人类也弄不清30亿个碱基对里大部分内容宏观上呈现出一个什么性状,不知道什么意思。

    那么现在我们要实现一个什么模样呢?

    就是用大数据来猜出这篇文章要说什么,而不去通过学习意大利语来弄懂这篇文章到底说的是什么。

    SNP 位点的检测就是这样的,它的检测就是从这张图里,比如指定找出第2553个字符,然后只分析这个字符具体是什么,来判断这篇文章的中心思想。

    他之前可能通过一些大数据找出了一些相关性,但这种相关性实在是太弱了,实际这篇文章说的是意大利语中名词的阴阳性和一些书写规范,在现在我截图的这个位置,它偏巧第2553个字符是“i”,但很有可能这篇文章在编辑的时候,中间我就多回车了一下,所以这里可能就不是“i”,可能就是“f”了,但它说的仍然是同样的内容。

    可是在现有的 SNP 的基因检测中,很可能就因为这里变成了“f”就给你另一份完全不同的解读,可能在这种大数据的预判下,他就猜这篇文章说的是美国的交通法规。所以这样的基因检测结果参考价值实在是太低太低了,纯属浪费钱。

    今日内容小结

    最后总结,这类测试给出的报告,形容我们 N 种疾病的患病率比别人高多少,低多少,或者各种能力天赋上的评估,就跟我刚才说的这个例子是差不多准的,它的命中率很可能低于街边摆摊20块钱算一次命、相一次面。

    真的要测,我觉得也只能考虑全基因组序列的测试。其实就算是全基因组序列的测试,我觉得也不忙着测,因为即便现在测,还要好几万块钱呢,可能3年之后价格就会低于8000块钱,10几年之后也许测序的价格只有几百块钱了。

    你别以为这不可能,1990年要完成整个测序需要全球的科学家10几年的努力才能完成,但现在已经可以在一个公司轻轻松松地交几万块钱就测了,半个月就可以拿到结果。所以你就算早早地测完了,放在那儿也没用,因为现在还没有出现有效的对序列的解读。

    这就有点像2006年我们花了3万块钱配的一台特别豪华的英特尔双核酷睿处理器的电脑,但是中间放了11年封存,一直没用,今年才拿出来用。这钱就糟践了,因为你今年只用花2000块钱就能买到跟这个性能一样高的电脑,可是你原来竟然多花了10几倍的钱。所以即便是全基因组测序,我觉得都不用忙着去交钱测,等它技术成熟了,成为社会主流了再参考,这样才不亏。

    相关文章

      网友评论

          本文标题:来自得到-卓克专栏

          本文链接:https://www.haomeiwen.com/subject/ahrjsftx.html