第一单元 基因组学相关基础知识(8分)
1、人类基因组组成与遗传规律:DNA的分子结构、DNA复制方式、人类基因组DNA序列特征(2分);
DNA的分子结构
答:DNA分子是以A,T,C,G 4种脱氧核苷酸为单位组成的双螺旋结构。碱基对是以氢键相结合的两个含氮碱基,以胸腺嘧啶(T)、腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)四种碱基排列成碱基序列,其中A与T之间由两个氢键连接,G与C之间由三个氢键连接。
DNA复制方式
答:半保留复制。 起始阶段->DNA 片段生成->RNA引物水解->完整DNA分子形成->螺旋结构形成
人类基因组DNA序列特征
答:人类基因组由23对染色体组成,其中包括22对常染色体、1条X染色体和1条Y染色体。1号到22号染色体编号顺序,大致符合他们由大到小的尺寸排列。共含有约31.6亿个DNA碱基对,最大的染色体约含有2亿5千万个碱基对,最小的则约有3800万个碱基对。
2、基因及其表达与调控:基因的基本结构、基因的表达、基因表达的调控(2分);
基因的基本结构
答:
基因的表达
答:基因表达是指细胞在生命过程中,把储存在DNA顺序中遗传信息经过转录和翻译,转变成具有生物活性的蛋白质分子的过程。
基因表达的调控
答:基因表达调控是生物体内基因表达的调节控制,使细胞中基因表达的过程在时间、空间上处于有序状态,并对环境条件的变化作出反应的复杂过程。
基因调控主要发生在3个水平上,即:DNA修饰水平、RNA转录的调控、和mRNA翻译过程的控制;微生物通过基因调控可以改变代谢方式以适应环境的变化,这类基因调控一般是短暂的和可逆的;多细胞生物的基因调控是细胞分化、形态发生和个体发育的基础,这类调控一般是长期的,而且往往是不可逆的。
3、基因突变及其生物学效应:基因突变类型、基因突变的生物学效应、基因突变的诱变因素;DNA损伤的修复(2分);
基因突变类型
答:基因突变指基因组DNA分子发生的突然的、可遗传的变异现象。主要类型包括碱基置换突变、移码突变、缺失突变、插入突变。 (1)碱基置换突变:指DNA分子中一个碱基对被另一个不同的碱基对取代所引起的突变,也称为点突变。 (2)移码突变:指DNA片段中某一位点插入或丢失一个或几个(非3或3的倍数)碱基对时,造成插入或丢失位点以后的一系列编码顺序发生错位的一种突变。 (3)缺失突变:基因也可以因为较长片段的DNA的缺失而发生突变。
(4)插入突变:一个基因的DNA中如果插入一段外来的DNA,那么它的结构便被破坏而导致突变。
基因突变的生物学效应
答:碱基置换突变和移码突变都能使多肽链中氨基酸组成或顺序发生改变,进而影响蛋白质或酶的生物功能,使机体的表型出现异常。碱基突变对多肽链中氨基酸序列的影响一般有四种类型:同义突变、错义突变、无义突变、终止密码突变。
基因突变的诱变因素
答:1)外因。物理因素(x射线、激光、紫外线、伽马射线等)、化学因素(亚硝酸、黄曲霉素、碱基类似物等)、生物因素(某些病毒和细菌等); (2)内因。DNA复制过程中,基因内部的脱氧核苷酸的数量、顺序、种类发生了局部改变从而改变了遗传信息。
DNA损伤的修复
答:DNA损伤修复是细胞对DNA受损伤后的一种反应,这种反应可能使DNA结构恢复原样,重新能执行它原来的功能;但有时并非能完全消除DNA的损伤,只是使细胞能够耐受这DNA的损伤而能继续生存。对不同的DNA损伤,细胞可以有不同的修复反应。在哺乳动物细胞中有四个较为完善的DNA修复通路,分别是核苷酸切除修复、碱基切除修复、重组修复和错配修复。
4、人类基因组学:人类基因组计划、人类基因组单体型图计划、人类DNA元件百科全书计划、人类表观基因组计划、癌症基因组图谱计划(2分)。
人类基因组计划
答:于20世纪80年代提出,由美、英、日、中、德、法等国参加并于2001年完成的针对人体23对染色体全部DNA的碱基对序列进行排序,对大约25 000个基因进行染色体定位,构建人类基因组遗传图谱和物理图谱的国际合作研究计划。
人类基因组单体型图计划
答:国际人类基因组单体型图计划(简称HapMap计划)是由多个国家(加拿大、中国、日本、尼日利亚、英国和美国)联合进行的项目。这一计划的目的在于建立一个免费向公众开放关于人类疾病(及疾病对药物反应)相关基因的数据库。利用HapMap数据库,研究人员通过比较不同个体的基因组序列来确定染色体上共有的变异区域。这将能够发现与人类健康、疾病以及对药物和环境因子的个体反应差异相关的基因。
人类DNA元件百科全书计划
答:“DNA元件百科全书”计划(encyclopedia of dna elements,encode)是继“人类基因组计划”后最大的国际合作计划之一,于2003年9月由美国国立人类基因组研究所启动,其目的是寻求新一代DNA研究技术对人类基因调控序列在全基因组的水平上研究的应用。这个计划包括全世界11个国家80家科研机构35个小组的研究人员,当前已经产生了许多令人惊讶的发现,为未来进一步认识整个人类基因组的功能蓝图开辟了道路,对与人类疾病相关的基因序列研究产生重大的影响。
人类表观基因组计划
答:继人类基因组计划(HGP)完成后,人类表观基因组协会(Human Epigenome Con-Sortium,HEC)于2003年宣布正式启动人类表观基因组计划(HEP),HEP是在基因组水平对表观遗传学(Epigenetic)改变的研究,遗传学是基于基因序列改变所致的基因表达水平变化(如基因突变、基因杂合丢失等),表观遗传学指基于非基因序列改变所致基因表达水平的变化,(如DNA甲基化和染色质构象变化等)
癌症基因组图谱计划
2005年12月13日由美国政府发起的癌症和肿瘤基因图谱(Cancer Genome Atlas,TCGA)计划,试图通过应用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症(近期目标为50种包括亚型在内的肿瘤)的基因组变异图谱绘制出来,并进行系统分析,旨在找到所有致癌和抑癌基因的微小变异,了解癌细胞发生、发展的机制,在此基础上取得新的诊断和治疗方法,最后可以勾画出整个新型“预防癌症的策略”,这一项目由美国国家癌症和肿瘤研究所(NCI)和国家人类基因组研究所(NHGRI)联合进行,预计耗资1亿美元。
第二单元 测序技术相关基本知识(10分)
1、PCR技术的基本原理与流程:PCR实验原理、PCR实验流程、影响PCR循环反应体系正常运转的关键因素(2分);
PCR实验原理
答:类似于DNA的天然复制过程,PCR由变性–退火–延伸三个基本反应步骤构成:①模板DNA的变性:模板DNA经加热至95℃左右一定时间后,DNA双链解离成为单链.②退火(复性):温度降至55℃左右,引物与模板DNA单链的互补序列配对结合;③引物的延伸:72℃条件下,DNA模板–引物结合物在TaqDNA聚合酶的作用下,以dNTP为反应原料,靶序列为模板,按碱基配对与半保留复制原理,合成一条新的与模板DNA 链互补的半保留复制链。重复循环这三过程,就可获得更多的扩展产物
PCR实验流程
答:准备体系-> 循环{变性–退火–延伸}-> 最后延伸15min -> 电泳纯化和检测
影响PCR循环反应体系正常运转的关键因素
答:1)适宜的反应体系(PH,Mg离子浓度,dNTP质量,酶的保真度和质量等)
2)引物设计合理,避免不完全互补或者形成引物二聚体
3)适宜的反应温度和时间
2、第一代测序技术:Sanger 双脱氧末端终止法测序原理、测序特点、技术流程及优劣势;(2分)
Sanger 双脱氧末端终止法测序原理
答:在PCR时,除了加入四种dNTP外,还加入了被不同荧光标记的四种双脱氧碱基(ddNTP)。由于ddNTP的3’羟基是双脱氧的,无法连接5’磷酸,延伸反应在每一个位置遇到ddNTP都会终止,这样就能产生从第一个碱基到最后一个碱基所有不同长度的产物。用高分辨率的变性聚丙烯酰胺凝胶电泳(PAGE)分离产物,就能在每一个碱基位置上看到相应的荧光标记,从而实现测序。
测序特点
答:金标准,准确率很高,读长较长。
技术流程及优劣势
答:流程:测序目标片段PCR扩增->PCR产物纯化->测序PCR->测序PCR产物纯化->上机测序 优点:准确,读长长;缺点:成本高,通量低。
3、第二代测序技术:五种不同测序平台(454焦磷酸测序、SOLiD 连接测序、Illumina 边合成边测序技术、Ion Torrent 半导体测序技术、华大基因Complete Genomics测序仪)的测序原理、测序特点、不同测序平台文库构建类型、不同类型文库构建原理、下机数据特点、技术流程及优缺点;(5分)
454——单碱基添加(SNA): 引物与模板DNA退火后,在dna聚合酶(DNA polymerase)、ATP硫酸化酶(ATP sulfurytase).荧光素酶(1uciferase)和三磷酸腺苷双磷酸酶(Apyrase)4种酶的协同作用下,将引物上每一个dNTP的聚合与一次荧光信号的释放偶联起来,通过检测荧光的释放和强度,达到实时测定DNA序列的目的。 单碱基添加(SNA),454焦磷酸测序和Ion Torrent都属于这种测序原理。SNA的方法依赖单个信号来标记每个测序的碱基。<u style="box-sizing: border-box;">因为它不能终止反应,所以每次只能允许进一种碱基来防止继续延长。这样要是单碱基重复就会继续读取。</u> 特点:454的SNA系统是含有特定引物的珠子连同酶混合物一起进入PicoTiterPlate,当有一个碱基连入DNA链,就会产生一个生物荧光信号,通过相机捕获。
SOLiD ——基于连接的测序原理(SBL) SBL测序就是用1-2个已知碱基标记的探针与目标DNA杂交,然后再与下一个标记的探针连接,检测标记探针的信号,从而知道目标DNA的序列信息。SOLiD和CG都是基于这种测序原理。 SOLiD基本原理是通过荧光标记的8碱基单链DNA探针与模板配对连接,发出不同的荧光信号,从而读取目标序列的碱基排列顺序。
Illumina —— 边合成边测序(SBS) 四种dNTP被不同的荧光标记,每个循环就结合一个互补的碱基,拍四次照,四个照片重合,出现哪种荧光标记就可以确定是哪个碱基。反应之后荧光基团会被切除,这样就露出了3’羟基基团,可以与下一个碱基连接。 特点:可逆阻断(CRT),一次只连接一个碱基,检测一次,去掉荧光基团后再进行下一次连接。
Ion Torrent:第一台不用光学传感的测序仪。4种dNTP依次流过Ion芯片,DNA聚合过程中释放氢离子,带来PH值变化。使用CMOS-ISFET检测器来检测PH值来识别不同碱基。所以要是有连续碱基重复的情况下,准确度不高。
CG测序:利用四种不同颜色标记的探针去读取接头附近的碱基,探针能够与DNA片段结合,T4 DNA连接酶连接探针和anchor,使探针稳定结合,从该探针携带的荧光基团的颜色为判断出该位置是何种碱基。
不同测序平台文库构建类型、不同类型文库构建原理、下机数据特点、技术流程及优缺点
一般分为片段/单末端和双末端配对文库,双末端分小片段和大片段文库,具体内容太多了,估计不会考那么细…
Illumina CG:环状文库,没有单链文库
乳液PCR(454、SOLiD) 片段DNA模板与dNTP、引物和DNA聚合酶包在一个油滴中。在凝胶中进行PCR扩增,最后得到成千上万份相同的DNA序列。 固相的模板移位(SOLiD ) 片段DNA与固定的引物结合,PCR扩增延长引物得到第二链。然后部分变性,使得自由端可以与邻近的引物结合,再次扩增,起到放大的效果。 固相桥式扩增(Illumina) 片段DNA分散到Flowcell上,与固定的引物结合,进行桥式扩增,从而形成很多DNA簇。 DNA纳米球(Complete Genomics) 片段DNA加两次接头,然后进行滚环扩增,形成一个DNA纳米球,最后纳米球通过杂交的原理固定在阵列的flow cell。 下机数据特点 454测序:SFF,需要转换成Fna/Qual
Illumina:FASTQ SOLiD:CSFASTA / QV.qual质量文件,测序结果包含峰值 Ion torrent:Bam
技术流程及优缺点
一般流程:DNA文库制备(打断,加接头,末端修复,筛选等) ->扩增 -> 上机测序
4、第三代单分子测序技术:Nanopore测序原理及流程、单分子实时(SMRT)DNA测序、文库制备、测序原理及数据读取方法。(1分)。
第三单元 生物统计学方法与原理(6分)
1、生物统计学相关基本概念及原理:生物信息分析中涉及到的均值、众数、中位数、中程数、N50、概率、误差、变量、数据分布、显著性检验、p值、相关性、离散程度等统计学基本概念。(3分)
a) 均值、 b) 众数、统计分布中具有明显集中趋势点的数值,代表数据的一般水平 c) 中位数、将数据从大到小排序,处在中间位置的数 d) 中程数、是极差(最大和最小值)的平均值 e) N50、在序列拼接中,将contig或者scaffold按照从到短进行排序,并对其长度进行累加,当累加长度达到contig或者scaffold全长的1/2时,最后一个contig或者scaffold的长度即为N50 f) 概率、随机事件出现的可能性。 g) 误差、测量值或计算值与真实值得差异 h) 变量、计算机语言中能储存计算结果或能表示值抽象概念,没有固定值,可以改变的 i) 数据分布、数据呈现出在一定范围内围绕某个中心而波动的分布特征。 j) 显著性检验:事先对总体的参数或分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断真实值与原假设之间是否有显著差异性。 k) p值:极端事件集合的总概率 l) 相关性:两个变量的关联程度
m) 离散程度:指通过随机地观测变量各个取值之间的差异程度,用来衡量风险大小的指标。
2、常用生物数据统计方法:多重检验、假设检验、差异分析、多重矫正、数据统计特征、Lander-Waterman模型、基因组特征参数估计、数据分析结果的展示与评论(3分)。
多重检验:使数据的Type I error(假阳性)出现小于特定数值
假设检验:
第四单元 Linux系统的基本操作与常用命令(6分)
1.Linux 操作系统安装:个人电脑安装Linux虚拟机安装的具体流程与方法(1分);
2.Linux 操作系统基本操作:Linux操作系统安装与登录方法、简单的集群登录与操作方法(1分);
3.Linux 操作系统常用基本命令:pwd,cd,mkdir,rm,cp,mv,cat,less,wc,cut,uniq,df等常用命令(2分);
4.Linux 操作系统常用操作符号:|,>,>>等常用操作符号(1分);
5.VI编辑器的使用方法;(1分)。
第五单元 Perl 语言简单编程与数据处理分析(10分)
1、perl语言编程环境、编程语言的格式:变量、标量数据、换行符、列表与数组、哈希、正则表达式、perl语言的帮助系统(2分);
2、perl语言各命令、代码的含义及文件信息处理:文件的输入与文件输出、序列提取、子程序、统计FASTA序列文件子程序(2分);
3、perl语言的常用基本操作:利用perl读取FASTA文件中碱基序列,统计FASTA文件的CG含量,统计序列的长度分布、并对测序数据进行删除、挑取、排序等基础操作(2分);
4、在Perl程序中调用其它软件:Perl里调用R、Perl里调用BWA比对软件、Perl里调用Samtools软件、Perl里调用Soap SNP软件、Perl里调用GATK软件(2分);
5、利用perl编写简单的生物信息分析程序:(格式转换程序、利用正则表达式处理文本、基因组信息的统计、遗传漂变模拟等)(2分)。
第六单元 R语言编程、绘图及生物统计分析(10分)
1.R语言相关基础知识:R语言的历史、定义、功能、现状、优势及帮助系统;R程序的安装与运行;R语言的语法、对象及属性;(2分)
2.使用R对生物数据进行统计分析: R语言数据结构、类型及常用运算符;R数据结构——向量建立、向量运算、数组、数据框、列表、因子、 R程序设计;生物统计数据的读取与存储——数据浏览与编辑、数据读取、分析与存储;(3分)
3.R的基础绘图工具:常用绘图函数的含义、高级绘图参数、常用绘图参数、画图面板分割及图形保存(2分)
4.使用R绘制简单图形:散点图、条形图、文氏图、饼图、盒形图&频率直方图、热图的绘制方法(3分)。
第七单元 生物信息分析常用软件及分析方法(40分)
1、生物信息分析相关序列比对原理、算法、流程及软件使用方法:序列比对原理、流程及常用软件使用方法——序列比对原理与算法 、常用全局比对软件使用方法、常用局部比对软件、Blast在线软件、常用短序列比对软件 SOAP2 ;数据的质量控制及结果解读(10分);
2、基因组de novo组装:基因组de novo组装原理及常用软件使用方法——组装的概念、意义相关基础知识、mate-pair文库构建 、不同测序数据特点、组装基本思路 、overlap、Contig、scaffold、N50等基本概念、利用测序深度及泊松分布模型预估测序数据量、Kmer深度分布 、Kmer分析方法的其他应用范围 、组装的具体流程和算法、组装结果影响因素、组装常用结果评估指标、SOAP de novo 组装软件下载安装与使用方法、下机数据质量控制、基因组大小的评估&数据纠错、SOAP de novo 配置文件(10分);
3、基因组重测序:基因组重测序原理及常用软件使用方法——比对方法及常见问题说明、比对数据的质量控制,深度与覆盖度统计、变异检测、结构变异检测、突变检测数据QC、数据注释突变数据库、群体遗传突变分析(10分);
4、基因注释:基因注释原理、流程及常用软件使用方法——基因组组装结果是否符合注释要求的结果评估与质量控制、不同类型重复序列预测方法及分析流程、利用Genscan、Glimmer进行基因结构注释的软件使用方法、利用Genewise进行基因同源结构预测的流程及软件使用方法;利用tRNAscan进行ncRNA预测的操作方法、数据的质量控制及结果解读(10分)。
第八单元 生物信息分析常用数据库 (10分)
1、NCBI数据库的结构、使用方法、NCBI PubMed 文献检索方法;(2分)
2、GO功能注释数据库的组成、结构、用途及在线检索方法;(2分)
3、KEGG数据库的组成、结构、用途、在线检索方法及其生物学意义;(2分)
4、DAVID数据库的组成、结构、用途、在线检索方法及其生物学意义;(2分)
5、UCSC、UniProt、UniRef、UniPare等数据库的结构及其代表的生物学意义及其使用方法(2分)。
网友评论