我们正在经历变革,浩浩荡荡、难以抗拒的区块链变革。每个国家都在研究如何应对狂热的市场,每个公司都在挖空心思如何涉足其中。2018年,区块链氛围将注定以大火燎原之势在人类社会蔓延开来。
蛊惑人心的话不多说,我们直接切入今天的主题:基因组学与区块链的结合现状。可能会有人觉得,基因组+区块链免不了是蹭热点的商业行为,生命科学领域还是应该老老实实去做研究,瞎搭什么车?也许还会有人说,区块链对于基因组研究生态是绝佳的发展机会,千载难逢。那么真相是什么?我们应该支持哪种观点呢?下面请听老土细细道来。
本文的结构:
1.背景介绍
1.1什么是基因组
1.2如何获取基因组数据
1.3什么是区块链
1.4基因组+区块链的项目总览
2. Nebula Genomics 项目概览
2.1动机
2.2关键卖点
2.3技术实现
3. 分析与总结
注明:考虑到各个领域的读者知识结构不同,我尽量用最简洁的话介绍所涉及到的东西,但不免会增加文章篇幅,使其变得冗长;另外本人水平有限,文章中不免会出现各种错误和理解不到位的地方,还望大家多多批评指正。
1. 背景介绍
1.1 什么是基因组
引自维基百科:
基因组在生物学中,一个生物体的基因组是指包含在该生物的DNA(部分病毒是RNA)中的全部遗传信息,又称基因体(genome)。
通俗来讲,一个人的基因组就是一套字母序列(ATGC),不同的字母组合编码着不同的特性(不同外貌、健康状况等)。这些序列在人的细胞中主要以染色体的形式存在,其中一半来自父亲,一半来自母亲,组成了自己的完整基因组,然后再一代一代传下去。
为什么基因组那么重要?不仅仅是因为基因组决定了我们的一切身体特征,包括什么肤色、眼睛多大、基础身高多高等等,还因为它与我们的健康息息相关。这种关联表现在,DNA序列的非正常改变可能会使得人更容易得某种病、或者直接导致某种疾病的发生。而这些序列改变有可能来自于父母的遗传,也有可能是受到环境影响(如吸烟、辐射等)造成。
在生命科学领域,基因组与疾病的关联始终是科学家们研究的热点。他们的研究成果使得临床上可以通过基因组检测来提示风险或确诊疾病。比如唐氏综合征的筛查、单基因遗传病检测、癌症的靶向治疗等等。然而,基因组的研究仍然有很长的路要走,科学家们需要更创新的方法、更多更精确的数据,以及更低的科研成本。
1.2 如何获取基因组数据
现如今,想要获取基因组数据,对于个人来说还是比较难的。虽然市场上已经出现了便携式测序仪,但还在发展中且并未普及。所以这些工作都应该交给专业的实验室或者公司才行,他们会对你的样本(比如唾液、血液等)进行处理,并利用测序仪来测定你的基因组序列,最后再对数据进行深度分析。他们一般会使用 Illumina 或其他公司的测序仪进行测序,会产生数十G至上百G的数据。一个人的基因序列文件也就几个G大小,但因为测序仪需要通过大量的错位重叠来保证数据的正确性,所以实际得到的数据量非常大。
Illumina 测序仪当然以上说的都是全基因组测序的数据,就是把所有基因的位点都给测了。基因组上的位点并不是全都重要,至少现在研究出来的重要基因位点少之又少。所以能不能想办法只测这些重要位点的数据?当然可以!比如使用基因芯片筛查,23andme 公司就是使用的这种技术,来检测用户的重要基因位点是否有改变,从而给出一些祖源分析、健康风险等等的报告。那是不是说,可以使用基因芯片取代全基因组测序了?完全不是!基因芯片仅仅靶向一小部分位点的改变,而全基因组测序拿到的是完整的基因组数据,对于科学研究来说,不考虑成本的情况下当然是获取全基因组测序数据了。
成本方面,全基因组测序需要花费600-10000美元,无论对于个人还是研究组织,都是相当昂贵,而基因芯片只需要100-500美元(参考自zenome白皮书)。降低测序成本看起来是迫切需要的,因为这样不仅能使得更多的人愿意参与到测序生态中来,也会让科学家拥有更多的数据来进行分析研究,从而了解更多的疾病机制机理。
1.3 什么是区块链?
这一段写给没接触过区块链的朋友,圈内人士可以直接跳过。
简单来讲,区块链即是一个分布式账本,每个区块代表一部分转账记录,区块与区块连接即构成了整个的完整账本。
区块链示意图这个账本和传统账本不一样的地方在于:
①去中心化,任何一个人都可以获得一份账本的拷贝,并实时加入到账本的维护中去。
②由于正确维护账本会得到奖励,所以诚实节点会自发的抵抗恶意节点作恶,使其攻击成本巨大,出力不讨好。
③网络中的转账记录永久保留,且不可被篡改。
④利用各种密码学算法,保证匿名的同时,可以验证身份,无法被伪造。
⑤智能合约,一旦设定好规则即可强制履约,无法违约。
另外,区块链不仅仅只能做与金钱有关的转账事宜,一切有相应需求的业务都可以在区块链上展开。比如资产数字化、身份数字化、共享资产、专利保护、保险业务等等。
1.4 基因组+区块链项目总览
目前,基因组与区块链结合的项目并不算多,我知道的有Nebula Genomics、Luna DNA、Encrypgen、Zenome、Shivom。这些项目的动机和目标几乎一致:用户可以通过区块链来出售自己的基因组数据,研究组织或公司可以通过区块链来购买大量基因组数据,从而促进相关研究的发展。思路其实谁都能想到,但如何去实现整个流程、如何促进自身生态的发展,这是最重要的问题。
目前Encrypgen已经有了部分产品并且已经发行自己的代币,Shivom已经有了产品但还没公布白皮书,Nebula Genomics和Zenome已经发布了白皮书,Zenome已经启动了众筹,Luna DNA目前还未有进一步的消息。
新兴的基因组+区块链项目值得关注是,Luna DNA有两个创始人是Illumina公司的前管理人员。而Nebula Genomics的创始人之一是George Church,他被称作“合成生物学之父”,二代测序发明者,CRISPR技术的早期推动者等等,其背景可见一般。下面我们着重介绍一下Nebula Genomic项目。
2. Nebula Genomics 项目概览
2.1 动机
Nebula Genomics发起该项目的动机主要有以下几点:
①基因测序市场潜力较大,目前绝大多数人没有测过自己的基因组,目前进入这一市场将抢占先机。
②现有的基因测序公司(如23andMe)会出售用户的基因组数据给第三方机构,用户无法掌控自己的基因组,Nebula Genomics希望通过区块链来实现用户对自身数据的绝对控制。
③对于用户来说,获取自己的完整基因组的价格较高,Nebula Genomics通过帮助用户出售数据来降低其成本。
④对于研究机构来说,迫切需要获得大量高质量、标准化的基因组数据来推动药物研发和科研工作,Nebula Genomics计划通过自己提供测序来实现数据的标准化,以此更好地服务研究机构。
针对以上动机,Nebula Genomics计划通过提供完整的一套流程来介入市场,从最开始的基因测序到数据售卖再到数据分析,全部由其提供,当然也允许各个阶段第三方资源的引入。
2.2 关键卖点
Nebula Genomics 模型上图展示了Nebula Genomics的模型,消除了用户和研究机构之间的中介。用户直接支付Nebula token即可获得测序服务,Nebula Genomics测序完成后将测序数据提供给用户。用户可选择自己持有,也可以选择出售自己的数据(保证匿名的情况下);药商等公司则可以使用Nebula token来购买所需要的数据。整个流程中,Nebula Genomics拥有以下亮点:
更低的测序费用
Nebula Genomics通过两种方式降低测序费用,一种是用户直接在网络中参与付费调查,即回答药商提供的调查问卷,药商会选择符合条件的用户,为其直接支付测序费用;另一种是已经测过序的用户,也可以上传数据,加入到Nebula 网络中来,获取一定费用。
增强的数据保护
用户私密保存其基因组数据和表型数据,并可控制谁可以获取他们;共享数据是加密存放的,并使用Intel Software Guard Extensions (SGX) 和同态加密(Homomorphic Encryption)来进行数据分析;用户身份始终不公开;数据购买者公开所有信息,且经过Nebula Genomics的认证。
高效的数据获取
去中心化的隐私数据存储;数据购买者和用户的点对点交流;定义数据和表型数据的标准格式;通过智能合约来自动化合约签署、支付、数据传输等流程。
大数据应对
Nebula Genomics与其他测序公司的比较运行用户私自保存自己的隐私数据,即数据存储在用户本地;引入一种新的数据编码格式,优化网络传输;购买者可利用支持Intel SGX的硬件设备来进行计算。
上图展示了相比于目前其他的基因公司,Nebula Genomics的优势所在。简单来说,相比于传统基因公司,Nebula Genomics实现了用户和药商的直接交流;相比于新兴的区块链类似项目来说,Nebula Genomics可以直接帮助用户测序,而其他项目大都只允许用户上传第三方测序的数据。
2.3 技术实现
Nebula Genomics 技术架构上图是Nebula网络的整体结构,隐私保护、身份验证、记录保存、智能合约方面,采用以太坊的区块链网络;数据接入、存储则使用Blockstack。
数据处理方面,Nebula Genomics首先将基因组数据比对在人类的参考基因组上。由于不同人之间的基因数据的一致性高达99.9%,真正只有0.1%的差别表现出来特征差异,所以不同人之间的数据是包含大量冗余的。于是Nebula Genomics首先将每个人的差异部分提取出来,并利用这部分数据再网络中传输。具体做法是:通过序列hash来索引参考基因组中的特定段序列,记录该序列某些位置的碱基变化情况,如下图所示。购买者拿到数据以后,则可以通过同一份参考基因组还原完整的基因组信息。未处理的数据一般在150~200G左右,而经过这种处理之后,数据只剩10M左右,这将极大的提高传输效率。
引入新的数据格式数据分析方面,Nebula Genomics使用支持Intel SGX的计算节点进行加密分析。计算节点和用户节点协商好密钥后,计算节点获取到加密后的隐私数据,之后所有的隐私操作将只在SGX的enclave内部进行,外界无法获取,最终将计算结果提供给外部环境;计算节点再将结果加密后传输给数据购买者,详情如下图所示。
安全计算另外,Nebula Genomics引入了同态加密,即通过直接对多个节点的数据密文进行一些统计分析,然后再进入SGX的enclave中对密文分析结果进行处理,这样减少了解密数据的次数,减少了工作量。
限于篇幅,其他技术细节这里不再介绍,感兴趣的读者可阅读Nebula Genomics白皮书。
3. 总结与分析
刚才我们简单介绍了Nebula Genomics项目,现在我们通过几个问题来思考一下这个项目的合理性和必要性。
1、必须使用区块链吗?如果不使用区块链能否实现?
我认为,Nebula Genomics项目使用区块链的原因有以下几点:
①用户身份隐私保护;②数据传输安全、透明;③智能合约保障交易;④使用token方便用户和机构交易。
我们逐条分析。
第①条,用户身份隐私保护,并不一定需要区块链,只要在整个业务流程里不获取用户的实名信息,通过其他手段来标识用户,也一样能保护其隐私;
第②条,数据传输安全、透明,这一点可能还是需要利用区块链来实现。因为一旦数据到了用户手上,之后的任何传输如果通过中心化的服务,用户是无法确认数据有没有被传到其他地方的。而通过区块链的话,所有的操作都会被记录在链上,如果能保证计算节点的安全性,数据也不会外泄(这块儿对于计算节点与区块链的关系我还是不很清楚,需要后面进一步的学习);
第③条,区块链的智能合约的确可以免除中间商,虽然有公信力的中心化服务也可以作为一个可信任的中介,但利用区块链来免除中介似乎是一个更让人放心的选择;
第④条,使用token支付的确会使得交易更加便捷,最简单的情况就是跨国支付,无需繁杂的货币兑换手续,对于用户来说可以将基因组数据出售给其他国家的药商或研究团队,而研究机构也可以方便的收集全世界的数据。
通过以上分析,我认为该项目与区块链的结合是有必要的,如果不使用区块链,是很难达到其目标的。
2、是否有难以解决的问题?
我认为还是存在一些硬伤的。
第1,Nebula Genomics可以为用户直接提供测序服务,但将数据传回给用户之前,数据是掌握在他们手里的。这里Nebula Genomics还是一个中心化的测序机构,如何保证数据的安全性是一个非常重要的问题。Nebula的白皮书里也提到了这个问题,他们提到未来便携式的测序仪可能会改变这一现状。这个问题确实短期内不好解决,但无论如何Nebula Genomics已经向保护用户隐私的目标迈出了第一步,我们倒是可以暂时选择相信Nebula Genomics的职业操守。
第2,用户表型数据的真伪。因为药商往往会选择感兴趣的用户来购买他们的基因组数据或者为他们测序买单,这就会使得用户来伪造其表型数据,比如有的正常人会说自己是某种疾病的患者,来提高被药商买单的几率。针对这一问题,我也咨询了Nebula的相关开发人员。他们的答复是,可以设计出复杂的、无法被猜到目的的调查问卷,使得用户无法知道药商感兴趣的是哪种疾病。他们还说,对于科学研究来说,正常样本也同样重要。我理解他们的意思,但对于这个问题我还是保留我的观点,毕竟各种投机取巧的人无处不在。当然,对于这个问题,后面也可以加入一系列的审查、验证步骤,或者再通过与医院机构合作,统一获取用户的表型数据,类似于微博的认证一样,用户可以对自己的表型数据申请认证,也可以置之不理,选择权则交到了数据购买者手里。
综合以上分析可知,基因组和区块链结合是有一定合理性的,比如数据安全、去除中间机构、智能合约保障等,对于基因测序市场来说是很好的结合和拓展。但是也存在不少亟需解决的问题,比如测序机构数据的安全、表型数据的伪造等。
但是,我们应该看到这类项目的存在意义。往大了说,它们会促进基因组学的研究,促进测序产业的发展,也许未来科学家们会使用区块链上买来的数据来研究出新的药物靶点;同时越来越多的人会参与到测序浪潮中来,从而更好深入的了解自己。往小了说呢,药厂拿数据的成本会降低、流程会变简单,而个人用户也会通过安全的出售自己的基因数据而获取不菲的利益。可见,这类项目如果能发展成功,是对社会具有推动作用的。所以虽然他们会遇到不少的问题,但我还是祝愿它们能披荆斩棘,不断向前!期待在这个技术变革的时代,越来越多的先锋能身先士卒,探索新科技新技术的进化之路,为人类社会进步做出贡献!
网友评论