基因组的那些事儿--基础

作者: 刘小泽 | 来源:发表于2019-06-01 23:02 被阅读67次

基因组的那些事儿(四)-质量控制与初步比对
基因组的那些事儿--基础
基因组的那些事儿(二)
明朝那些事儿pdf+mobi+epub+txt+azw3电子版电
股票那些事儿（1）
科普笔记12：Genome Re-sequencing 基因组重
《汽车销售那些事儿》目录
基因组的那些事儿(三)-准备工作
基因组重测序SNP_calling
生信考试参考题目及答案(答案待整理)

偶然间翻出来了18年学习jimmy的”直播我的基因组系列“所做的一些理解，文章写于18.7.30，因为当时感觉工程浩大，所以迟迟没有发出来，但现在我想，“攒着攒着就烂了”，好的内容不能浪费，不踏出第一步，之前的努力就都白费了。当然自己可能还有一些理解不到位的地方，后续内容会补充完整

关于基因组

正常人都是有22对常染色体加XY性染色体。基因组是指生物体所携带的一套完整的单倍体序列，也就是22条+X+Y。每个染色体包括全套基因和间隔序列。他们由A、T、C、G碱基组成，总共长度大约是30亿个碱基。

关于基因检测

随着社会的发展，人们对于健康愈发重视，开始涌现了大量的基因检测，它的个性化定制再加上后续的医师指导，更加准确和便捷获得自身健康信息，预计未来会代替传统体检。

基因检测是在分子水平上对人体遗传密码进行破译，通过单核苷酸多态性和GWAS的分析对人体患病风险进行预测，从而进行预防干预及个体化治疗。目前全基因组测序成本（30X）已经不足一万元，这种测序就是来检测全部的30亿个碱基对是如何排列的，得到从第一个到第30亿个碱基的排列方式。

全基因组检测帮助确诊引起某个疾病的病因，尤其是癌症病人；或者指导有家族性后发遗传病的病人进行有针对性的治疗，比如安吉丽娜·朱莉接受预防性的双侧乳腺切除。

怎么测： 最常用illumina的二代测序，测序长度在150-250bp，取几百万的细胞破碎后，把所有的染色体随机打断成小片段，一个个进行测序，会测得上亿个片段

【还有一种是三代测序，不需要PCR过程，直接对每一条DNA分子进行测序，长度1w-5w nt（因为没有经过PCR，一直是单链状态测，所以不存在碱基对bp，只能称之为碱基nt），准确度要低一些】

测哪里： 也就是测序的样本从哪里获得？

唾液？：唾液肯定可以提取出DNA，而且也最方便。但是会混在口腔微生物的DNA，即使后来通过比对人类参考基因组来去除污染，但最后大概三成数据是要被浪费的。目前基于取唾液兴起的基因检测是测一部分高频变异位点，那不是做的全基因组测序，是利用基因芯片技术进行，成本在三位数

23魔方

血液？除非提供者正患有菌血症（外界的细菌经由体表的入口或是感染的入口进入血液系统后，在人体血液内繁殖并随血流在全身播散），一般血液是最纯净的。从血液里面分离白细胞然后提取DNA的技术也是非常成熟的。

测序报告：

处理流程

数据来源：

一般推荐：全基因组测序，覆盖度30X，也就是90G的raw data，测序策略是PE150，采用illumina的HiSeq X，DNA小片段文库(350bp)进行建库。

几个名词：

覆盖度30X：平均下来能把身体内的30亿个碱基每个都测到30次，因为测序是随机的，必然有一些测序深度高一点，有些低一点

这个30的标准怎么定的？为什么不是20X或者更高的40、50X？
有研究做过饱和度分析～看看5~60X的模拟梯度对寻找遗传变异的能力差异大小，结果发现平均深度达到30X的时候，可以覆盖基因组的95%；另外测序深度越高，价格越贵，30X的高性价比足够挖掘到一定量的遗传变异Sequencing depth and coverage: key considerations in genomic analyses - Nature Reviews (2014)
90G raw data：测序深度30X，人类基因组大约30亿碱基，而一亿10⁸ 就等于1Gb的测序数据；拿到的就是3Gb*30X=90Gb。【注意这里的Gb是测序字符的数量】
测序策略PE150:也就是标准的双端测序模式（Paired End），目前双端比单端价格还要便宜，而且一条序列这边测一次，另一边测一次，更准确。所以一般分析基本也没有用单端的了。150就是这边测150bp，那边测150bp。【当然打断的片段一般是大于300bp的，所以每个reads中间会有一部分测不到，这就对了！毕竟reads是随机打断，也就是打断的位置不同。虽然这一条reads的中间部分区域测不到，但是另外的reads就能测到。如果说，一条reads长度200却采用双端150bp，那么中间就会有重叠区域，被测了两遍，这在高通量测序中是非常浪费资源的，每次测都是要花钱的啊！】
Hiseq ：美国Illumina公司作为二代测序仪生产领先企业，自2006年进军基因测序市场以来，陆续发布了HiSeq，MiSeq，NextSeq，NovaSeq等一系列测序仪器。

Hiseq系列～HiSeq 2000，HiSeq 2500，HiSeq 3000，HiSeq 4000
HiSeq系列测序仪问世以来，以通量高，产量大，生产规模著称，能够快速、经济的进行大规模平行测序，在大型全基因组测序，全转录组，全外显子组测序，靶向基因测序方面优势明显。HiSeq 3000/4000系统基于成熟的HiSeq 2500系统，采用创新的有序流动槽技术最大限度提高效率，3.5天内可完成12个基因组、100个转录组或180个外显子组测序

HiSeq X系列——HiSeq X Five，HiSeq X Ten
HiSeq X Ten系统的问世完成了人类历史上一大里程碑事件——千元基因组时代的到来。HiSeq X Ten系统是由一套共10台超高通量的HiSeq X仪器组成，其中每台仪器可在3天内产生高达1.8 Tb测序数据，即每天高达600 Gb。10台联合工作，每年能带来超过18,000个人类基因组，而每个基因组的价格约为1000美元，让癌症和复杂疾病的研究达到新的水平

至于NovaSeq嘛，应该是17年开始交付使用，被称为“史上最贵洗衣机”的NovaSeq6000，以其酷炫的外形和美丽的价格（100w美金）成为了高端测序领导者，旨在冲刺“100美元基因组测序”。它的通量更高，运行周期48小时，2个flowcell每次产生大于2Tb的数据。另外还有它兄弟Novaseq 5000，差异就是他们的流动槽，5000可以运行S1、S2两种，6000可以运行S1、S2、S3、S4四种，一个S4流动槽每次运行可达到80-100亿数量的reads / clusters。双S4流动槽运行可以不到两天内解码48个人类基因组（6万亿硷基通量），比双S2流动槽通量翻三倍

DNA小片段（350bp）建库：根据公司不同，将DNA用超声波随机打断成一定长度（如350bp），加接头，作为测序前的准备工作，
Gb与GB你混了吗：

Gb是测序中的数据量，1 Gigabase= 十亿碱基。人类全基因组测序得到了90G的原始数据，也就是900亿碱基。原始数据是fastq格式，而fastq格式是这样的：第二行中一个碱基对应第四行中的一个测序质量

得到的900亿碱基，也对应900亿个质量值，加起来就是1800亿个字符。
第一行是测序说明，一般是45个字符，也就是说，每一条测序reads中第一行就有大概45个字符。

那么多少条reads呢？根据PE150计算：测序策略是一条reads包括150bp，现在900亿碱基，就对应900亿/150=60亿条reads 。因此第一行总字符是：60亿*45=270亿个字符。
注意到fastq文件共四行，其中1、2、4行的总数量分别为270亿、900亿、900亿，第三行就是一个+，基本可以忽略不计。加起来总共2070亿字符。计算机中，根据编码规则不同，字符与字节对换关系不同。

Fastq文件是ASCII编码文件，其中每一个字符就对应一个ASCII码，也就等于一个字节。计算机的1 GB（Gigabytes） 是1024³ 个字节
因此，二者对换关系就是：全基因组测序的90Gb对应（2070*10⁸ /1024³ ）=

193GB计算机存储空间。

或者更快的计算： 测序报告会给出reads数，如果测序策略是PE150，那么占用硬盘空间大小就是n(reads)(150+150+45)/1024³*

另外，测序仪下机后的数据都是用gz压缩后的文件.fastq.gz，能压缩2.7倍，大概71G左右。

欢迎关注我们的公众号～_～　　
我们是两个农转生信的小硕，打造生信星球，想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

基因组的那些事儿(四)-质量控制与初步比对
刘小泽写于2018年8月，发送于19.7.5基因组的那些事儿--基础：https://www.jianshu.co...
基因组的那些事儿--基础
偶然间翻出来了18年学习jimmy的”直播我的基因组系列“所做的一些理解，文章写于18.7.30，因为当时感觉工程...
基因组的那些事儿(二)
刘小泽写于19.6.3继续整理直播基因组优质内容，这一次介绍基因组分析两种基本思路基因组的那些事儿开篇：https...
明朝那些事儿pdf+mobi+epub+txt+azw3电子版电
明朝那些事儿内容介绍《明朝那些事儿》讲述从1344年到1644年，明朝三百年间的历史。作品以史料为基础，以年代和...
股票那些事儿（1）
一般写《XX那些事儿》的人都是对XX方面有着深入的研究和独特的见解，比如明朝那些事儿，作者以史料为基础，以年代和具...
科普笔记12：Genome Re-sequencing 基因组重
全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序，并在此基础上对个体或群体进行差异性分析。全基因组...
《汽车销售那些事儿》目录
汽车销售那些事儿21汽车销售那些事儿20汽车销售那些事儿19汽车销售那些事儿18汽车销售那些事儿17汽车销售那些事...
基因组的那些事儿(三)-准备工作
刘小泽写于2018年，发送于2019.6.13相信你已经磨拳擦掌，想要自己分析一波原始的人类基因组数据，并自己挑出...
基因组重测序SNP_calling
1 介绍基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序，并在此基础上对个体或群体进行差异性分析。 ...
生信考试参考题目及答案(答案待整理)
第一单元基因组学相关基础知识（8分） 1、人类基因组组成与遗传规律：DNA的分子结构、DNA复制方式、人类基因组...