美文网首页
基因测序及分析之考卷版

基因测序及分析之考卷版

作者: 等待爆发的火山 | 来源:发表于2020-03-14 18:11 被阅读0次

    文 | 火山

    “病毒盒检测”是新冠疫情期间大家熟知的一个词,大致的方法为:

    首先提取患者身上的病毒基因序列,然后将这个序列与标准的新冠病毒序列进行对比,如果两者长得一模一样,就确诊;如果有细微的差异,就再做一次检测或者增加辅助手段来确诊,比如病人的肺部影像CT;如果差异很大,就排除新冠病毒感染,检测样本标注为阴性。

    从上面的过程可知,知道获取病毒的基因序列是关键,那么病毒基因序列是如何获取的呢?这里就会用到基因测序技术。

    什么是基因?

    基因是决定生命特征的神秘物质,一个小孩长得和父母很像,可以理解为这个小孩是以父母为模板制造出来的。而基因就是组成这个模板的基本物质,它隐藏在细胞的DNA中。后来科学家们发现DNA是由四种碱基(base)构成的,并给它们取名为A、T、C、G。而基因就是由这四种碱基按照不同的排列组合构成的。

    原来生命就是由A、T、C、G四种砖块搭建而成的。这和计算程序由0,1组成非常类似。仅仅通过0和1这个两个数字,就创造出了我们天天使用的网络世界、游戏世界。

    确定参考基因

    知道基因是由4种字母组成后,下一步的工作就是破译组成基因的密码,找到它的排列组合方式。1900年到2003年,人类耗时13年,花费了38亿美金,绘制出了人类完整的基因密码。这个基因密码也被称为参考基因,类似于人类基因密码的标准答案。后面的基因变异查找工作,就要和这份标准答案进行对比,不一致的地方就可以称为发生了基因变异。

    参与绘制这份参考答案的一位叫汪建中国科学家,回国创立了一家公司,叫“华大基因”,这就是题外话了。

    基因测序及分析

    有了参考答案,接下来要讲的就是今天的主题:基因测序及分析。

    人类基因组有30亿个碱基对(注意“对”这个词,这是由DNA双螺旋结构决定的。一条链上的碱基在另一条链上有一个对应的碱基),也就是A、T、C、G这样的砖块共有60亿个。现在要做的是找出这些砖块的排列顺序。

    下面以我们最熟悉的考试场景举例。

    假设一份有100万题的考卷,命题者要求尽快把题做完,并进行阅卷和订正,指出考生的错误和对错误进行解释。具体可以分解以下步骤:

    1.将试卷随机拆分为100万题,交给100万人做;

    2.由100万人将答案随机输入到一个叫FASTQ的电子文档中。也就是说学生的答案没有题号,后面需要老师去找出学生回答的是哪一道题;

    3.将FASTQ电子文档中的数据与标准的参考答案对照,标记每题在参考答案中的位置

    4.对学生答案进行排序,生成答题试卷的电子文件,这个文件叫BAM文件

    5.老师根据参考答案对答题试卷(BAM文件)进行阅卷,并将所有的错题都记录到错题本中,这个错题本叫VCF文件

    6.老师对错题本进行注释,指出学生的具体错误。这一步也称为变异注释;

    以上6个步骤就是基因测序及分析的考卷版。其中步骤1-2由基因测序仪完成,步骤3-5有测序分析平台完成,步骤6由科学家完成。

    写完以上部分,我自己还有一个疑问,就是这个人类的参考基因组到底是如何确定的?我们怎么知道这个参考基因组就是完全正确的呢?

    相关文章

      网友评论

          本文标题:基因测序及分析之考卷版

          本文链接:https://www.haomeiwen.com/subject/pgigshtx.html