美文网首页
基因测序学习收获

基因测序学习收获

作者: 等待爆发的火山 | 来源:发表于2019-07-28 18:05 被阅读0次

最近在学习基因测序相关的内容,目的是想弄清以下问题:

一个病人的基因测序数据有多大的数据量?

完成一次基因测序需要多长时间?

基因测序比对模板基因是从哪里来的?

基因测序对算力和存储有什么具体的要求?

基因测序的具体步骤?

基因测序产生的文件是什么样的?

基因是什么?它的载体是什么?是如何编码的?

为此除了使用搜索引擎进行搜索外,还专门买两本书进行学习。一本是华大基因CEO尹烨写的《生命密码》,写的不错,但对于我的帮助不大。另外一本是浙江大学生命科学研究院教授王立铭老师写的《上帝的手术刀--基因编辑简史》,这本书不仅写得精彩,我从中找到了很多想了解的内容。

关于基因的一些基础知识

1)基因一词的来历

在古希腊哲学家的眼里,遗传的本质是一种叫做“泛生子”(pangene)的微小颗粒,这种肉眼见不到的颗粒存在于先辈的体内,并通过交配传递给下一辈,因此下一辈具有和先辈同样的容貌、性格等。

提出“泛生子”解释的哲学家之一叫德谟克利特,他也是原子论思想的创始人,所以也不难理解,他为什么认为基因是一种“颗粒”了。

后来,神父孟德尔通过豌豆杂交实验证明了遗传因子的存在。到了20世纪初,遗传因子被重新命名为“基因”(gene),这明显是从“pangene”简化而来的。而中国第一代遗传科学家谈家桢先生将“gene”翻译为“基因”,意思是携带遗传信息最基本的因子。

2)基因的载体

基因是生命的密码,存储和运输这个密码的载体是DNA。DNA就如同我们平时使用的“U盘”,盘中存储着关于生命秘密的密码文件。近百年来,科学家首先做的事情是找到“U盘”,然后破译“U盘”中的密码文件。

DNA分子是由四种脱氧核糖核苷酸分子组成,这四种分子也被称为碱基(base),分别为A、T、G、C四种。DNA就是由这四种碱基首尾相连形成的超长链条。

众所周知,DNA具有双螺旋结构,也就是说DNA是由两条长链组成的,这两条长链上的碱基按照严格的规则进行配对,A总是与T配对,G总与C配对。因此,只要知道一条DNA链上的碱基排列顺序,就可以预测出另外一条长链上的基因顺序了。

3)基因编码的秘密

地球生物中的蛋白质分子由20种氨基酸小分子首尾相连形成的长链,这与DNA类似。而DNA的作用就是指导这20种氨基酸分子按照一定的序列组成各种各样的蛋白质(排列组合有20的20次方种),从而形成各种千差万别的生物。

DNA分子由4种碱基组成,物理学家伽莫夫根据数学理论猜测,三个相邻碱基形成一个氨基酸密码,组合方式有4的3次方(64)种。实际情况确实如此,地球上所有生命都使用了3碱基密码来指导氨基酸的装配序列和蛋白质的生产。

因此可以说,一个基因是由3个碱基编码而成的。

关于基因测序的基础知识

1)人类基因组

人类基因组含有30亿个“碱基对”(base pair 通常简写为bp)序列,大约有2-3万个基因。在我们的每一个细胞深处,都含有这样的基因组,它们负责制造数万种功能、性状各异的蛋白质,从而决定每一个细胞、每一个组织和器官、每一个人类个体的性状。

因为人类基因组有30亿个“bp”,如果一个1个“bp”算为1"bit",那么30亿“bp”就有3Gb的数据量(注意是小b)。

2)测序深度

测序深度是基因测序产生的bp数与基因组中bp数的比值。简单来说,就是对每个碱基进行测序的次数。测试深度为30×,也就是说对基因组反复做了30次测序。

对基因进行多次测序的目的是为了降低错误率和假阳性率,确保测序的质量。

人类基因组采用的30×测序深度,因此会产生3Gb×30=90Gb的数据量;

现在健康人的全基因组测序一般是30X,肿瘤样本可能更高,达到70-100X。健康人的全外显子测序一般是100X,肿瘤样本一般是160X-200X。

3)人类基因组需存储的数据量(以下内容引用自:https://www.jianshu.com/p/bf871522ea20

人类基因组采用30倍的测序深度,产生90Gb的raw数据,而这些数据是存储在fastq文件中的,fastq文件会对基因数据添加解读和权重数据,加上这些解读数据,全基因组的存储空间占用为190GB左右

相关文章

  • 基因测序学习收获

    最近在学习基因测序相关的内容,目的是想弄清以下问题: 一个病人的基因测序数据有多大的数据量?完成一次基因测序需要多...

  • GATK分析

    从零开始完整学习全基因组测序(WGS)数据分析:第1节 测序技术 从零开始完整学习全基因组测序(WGS)数据分析:...

  • 学习小组Day7笔记--Doctorshann

    今天主要学习了基因测序相关知识,对于基因测序有了初步了解。主要包括三代基因测序技术的基本原理以及NGS组学的分类。...

  • 测序基础介绍-NGS方法小结

    1 测序方法分类 2 基因组测序 2.1 全基因组测序 大型全基因组测序对人类、植物或动物基因组等大型基因组(>5...

  • 测序知识

    重新学习测序的相关知识 一代测序 Sanger 测序法是第一代基因测序的基本原理,2001年完成的人类基因组框图,...

  • 全基因组测序 从头测序(de novo sequencing)

    全基因组测序 全基因组测序分为从头测序(de novo sequencing)和重测序(re-sequencing...

  • 基因组重测序与转录组联合分析简介

    基因组重测序是挖掘候选基因的重要手段,转录组测序则是研究基因表达量差异的主要方法。通过基因组重测序中的全基因组关联...

  • 学习小组Day7笔记--wbh

    思维导图day7-测序知识.png 推荐学习视频:陈巍学基因 测序的过程和原理 使用fastqc进行质量分析 测序...

  • 基因测序技术总结

    参考: 从零开始完整学习全基因组测序数据分析:第1节 测序技术作者:碱基矿工参考:【陈巍学基因】视频1:Illum...

  • 群体遗传学习笔记-测序技术学习

    重测序技术简介 全基因组重测序(Resequencing)是对已知参考基因组序列的物种进行不同个体间的基因组测序,...

网友评论

      本文标题:基因测序学习收获

      本文链接:https://www.haomeiwen.com/subject/jqpprctx.html