中国科学院大学2021年陈润生院士生物信息学期末思考题

作者: 记录生活和美好 | 来源:发表于2022-06-13 21:59 被阅读0次

思考题1：什么是生物信息学，如何理解其含义？为什么在大规模测序研究中，生物信息学至关重要？

一、生物信息学有三个方面的含义：

1.生物信息学是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面，是基因组研究不可分割的部分。

2.生物信息学是把基因组DNA序列信息分析作为源头，破译隐藏在DNA序列中的遗传语言，特别是非编码区的实质；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测，并将此类信息与生物体和生命过程中的生理生化信息结合，阐明其分子机制，最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。其本质是识别基因信号。

3.生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。在此基础上，归纳、整理与基因组遗传信息及其调控相关的蛋白质组和转录组数据，从而认识代谢、发育、分化、进化的规律。它是当今自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

二、重要性：

因为大规模测序作为基因组研究的最基本任务，其每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙，到重复序列标识、读框预测和基因标注的每一步都紧密依赖于基因组信息学的软件和数据库。

思考题2：如何利用数据库信息发现新基因，有哪些途径？其基本原理（算法本质）是什么？

大部分新基因是靠理论方法预测出来的。根据数据源不同，可分为两种方式：

一、从基因组DNA序列中预测新ORF

本质：识别。从大规模基因组测序得到的数据出发，经过基因识别发现新基因。

（1）基于信号（by signals)

通过在基因组DNA中，研究人员试图识别的功能位点类型包括剪接位点、起始密码子和终止密码子、分支点、转录的启动子和终止子、多聚腺苷化位点、核糖体结合位点、拓扑异构酶II结合位点、拓扑异构酶I切割位点、以及各种转录因子结合位点。像这样的局部位置称为信号，检测它们的方法可以称为信号传感器。

（2）基于内容（by contents）

1.序列分析的方法：

两两比对Pairwise alignment：“经典”的成对序列比对方案使用某种形式的动态规划(DP)。BLAST是一种启发式的两两序列比对方案，用于快速搜索和对齐的最广泛使用的工具；

多序列比对multiple alignment (MA)：可以总结一组比对的序列，求一个新序列属于已知序列族的概率，在一组序列中生成对齐。

2.基于神经网络的方法：建立了一种改进的BP学习算法。该网络的一个目标是找到内含子和外显子之间的剪接位点。

3.基于分维的方法：引入了从核苷酸序列到二维度量空间的映射，为每个核苷酸分配一个固定的向量，并通过端到端连接这些向量构建一个表示。

4.基于复杂度的方法：复杂性意味着在一个窗口中有多少种碱基连接模式，这些模式来自DNA序列的不同部分。结果表明，外显子的复杂度大于内含子和5 '侧翼和3 '侧翼的复杂度。

5.基于密码学的方法：将密码学的方法和技术应用到DNA序列分析中。在密码学中，此参数用于查找电报密文中的普通码。带有普通代码的部分是该参数的高值区域。我们假设外显子与明文相对应，并且具有较高的重合指数。

二、利用EST数据库发现新基因和新SNPs

本质：拼接组装与注释。大规模测序是基因组研究的最基本任务，它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。

1.原理：当测序获得一条EST序列时，它来自哪一个基因的哪个区域是未知的(随机的)，所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象，就能找出属于同一个基因的所有EST序列，进而将它们拼接成和完整基因相对应的全长cDNA序列。

2.可行性：到目前为止, 公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列；估计这些序列已覆盖了人类全部基因的95%以上，平均起来每个基因有10倍以上的覆盖率。

3.基因电脑克隆的实质: 以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌

4.国际上现已出现了几个基于EST的基因索引如UniGene、Merck-Gene index、GenExpress-index，这些基因索引数据库(即二次数据库)构建了基因框架，极大地方便了相关研究者。通过超大规模计算可以帮我们发现新基因。

5.方法有基因组序列比对、拼接、组装等。经常采用SiClone策略。其主要步骤有：构建数据库；将序列纯化及格式标准化；从种子库中提取序列和大库序列比对；延长种子序列，直到不能再延长；放入contig库。

①构建若干数据库：总的纯化的EST数据库，种子数据库，载体数据库，杂质、引物数据库，蛋白数据库，cDNA数据库；

②用所用种子数据库和杂质、引物数据库及载体数据库比对，去除杂质；

③用种子和纯化的EST数据库比对；

④用经过一次比对延伸得到的长片段和蛋白数据库、cDNA数据库比对，判断是否为已有序列，再利用该大片段与纯化的EST数据库比对。重复以上步骤，直到序列不能再延伸；放入contig库；

⑤判断是否为全长cDNA序列。

思考题3 ：用蛋白或核酸序列数据库研究生物演化的主要步骤是什么？当前的困难是什么？如何克服？

一、主要步骤如

当前分子进化的研究已是进化论研究的重要手段，并建立了一套依赖于核酸、蛋白质序列信息的理论方法，其主要步骤如下：

1.序列相似性比较。将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这项工作只需要两两序列比对算法。常用的程序包有BLAST、FASTA等；

2.序列同源性分析。将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比对，以确定该序列与其他序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比对算法。常用的程序包有CLUSTAL等；

3.构建系统进化树。根据序列同源性分析的结果，重建反映物种间进化关系的进化树。常用的程序包有PYLIP、MEGA等；

4.稳定性检验。为了检验构建好的进化树的可靠性，需要进行统计可靠性检验，通常构建过程要随机地进行成百上千次，只有以大概率（70%以上）出现的分支点才是可靠的。通用的方法是使用Bootstrap算法。

二、当前的主要困难

发现了基因的横向迁移（LGT）现象：占人类基因组的1.5%-14.5%，甚至rRNA分子也可能参与了LGT。即进化程度不同的物种间存在着遗传信息基因的传递，如果拿迁移的基因做进化分析就会出错。

三、克服LGT的方法（可能的解决途径）：

1.去除可能有横向迁移的数据库，利用NCBI的公有数据库去除。

2.进行全基因组比较分析，也可以进行完整蛋白质组比较分析，发展新的算法（CISA）

1.纵向思路

选择垂直进化而来的序列进行研究，即去除横向迁移的数据库，如COG数据库；

2.横向思路：

①利用生物体的蛋白质组构建进化树: 整个蛋白质组中不同功能蛋白质的组成揭示了生物的系统发育和聚类特性；

②选取特征对比，不同长度的序列字符串进行对比后，对照其基因组进行归一化；

③ORF对比，将所有预测的ORF采用COG的分类规则进行分类，再构建进化树；

④发展基于完整基因组构建进化树的方法，即使用全基因组数据库进行基因组水平上的对比，发展新的算法。

⑤基于完全信息集分析的全基因组系统发育研究（CISA）：基于复杂度的算法，完整蛋白质组，构建直方图。

思考题4： A.什么是SNP、为什么SNP研究是重要的？2个最重要的SNP数据库。

B.什么是系统生物学？系统生物学对生物功能实现的理解有何本质变化？

一、什么是SNP ？

SNP是单核苷酸多态性，代表不同个体正常人与患者在基因组上的差异。

主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性，代表了基因组水平上遗传密码的变异，由于这种变异很多以单碱基突变的形式出现，因此称为单核苷酸多态性；它反映了不同个体间、正常与异常个体之间基因组上的差异，现在这个概念有所扩大，已经不限于一个核苷酸的差异。

二、为什么SNP研究是重要的？

1.SNP研究是基因组领域理论成果走向应用的关键步骤，是联系基因型和表现型之间关系的桥梁，是研究人类基因组计划走向应用的重要步骤。

2. SNP研究的优点

①SNP在基因组中分布相当广泛，大量存在的SNP位点，使人们有机会发现与各种疾病相关的基因组突变，包括肿瘤相关的基因组突变；

②从实验操作来看，通过SNP发现疾病相关基因突变比通过家系容易；

③有些SNP不直接导致疾病基因的表达，但因为它与某些疾病基因相邻，而成为重要的标记，有助于发现疾病基因

④基础研究中的巨大作用，如对Y染色体的SNP分析使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。

3.SNP的特点：

①位点丰富；②具有代表性；③遗传稳定性；

④易于进行自动化，规模化分析，缩短了研究时间。

4.SNP研究的意义：

通过大批量、高通量的SNP的发现与鉴定，人类SNP-Haplotype遗传图谱的构建，在连锁不平衡基础上的关联分析等，有望为人类致命基因的寻找和疾病的防治提供快速和有效的途径，一系列发现和检测SNP的方法，构建图谱的策略，及连锁不平衡和关联分析等技术，正在动植物研究领域中受到广泛的关注，毫无疑问将在分子和群体遗传、动植物育种和生物进化等研究领域中发挥越来越大的作用。

三、几个最重要的SNP数据库

1. SNPConsortium's database ( http://snp.cshl.org/index.html )

2. NCBISNP database ( http://www.ncbi.nlm.nih.gov/SNP/overview.html ）

3. TheHuman Genic Bi-Allelic Sequences Database (HGBASE)：(http://hgbase.cgr.ki.se/)

4. TheHuman Gene Mutation Database（HGMD）：（http://www.hgmd.org/）

5. TheAllele Frequency Database(ALFRED)：（http://alfred.med.yale.edu/alfred/index.asp）

6. TheProtein Mutant Database(PMD)：（http://pmd.ddbj.nig.ac.jp/）

一、什么是系统生物学？

1.系统生物学是一门学科，要整合所有来自不同生物学层面的生物信息（DNA信息，RNA信息，蛋白质信息，蛋白质相互作用信息等等）的数据资料。

2.最终的目标是利用这些信息来编写构建建立描述结构和功能的数学模型。

①这些模型能模拟模拟仿真研究生命活动的未来和发展，以及生命活动受到外界环境刺激和影响后的反应和变化

②通过这个模型可以预测随着时间的推移，在环境变化或自己发展过程中，系统将会有什么变化，系统发展环境变化对系统的影响；

③构成生命的是由若干的基因之间发生的特定的相互作用，元件之间有紧密的相互作用，看待生命的本质是一个网络。

3.系统生物学研究步骤

①整合数据，即整合所有各个层次（DNA水平、RNA水平、蛋白质水平、蛋白质互作水平）的信息数据；

②系统建模，即用这些信息构建描绘生命活动的数学模型；

③预测未知，即用这个模型预测生命未来的发展以及受外界干扰后系统的变异（生命活动及外界因素变化对其产生的影响）。

二、系统生物学对生物功能实现的理解有何本质变化？

传统分子生物学看待生命的本质：基因组序列—>结构—>功能。

系统生物学看待生命的本质：各个层次的相互作用—>网络—>功能。认为生命是元件间的相互作用。

1.系统生物学一开始就考虑元件与元件之间的相互作用，把整个生命活动视为一个复杂的网络，而后再研究其相互作用。进一步讲，传统分子生物学是从基因组中发现特殊序列，即基因，然后找到基因编码的蛋白，再通过解析结构来推断功能；

2.系统生物学是从各个层次的相互作用到网络，再到功能。系统生物学不仅考虑单个分子，而且还考虑分子间的相互作用，把整个生命活动作为一个相互作用的网络来研究其功能，基因组只是网络中的一部分，只有通过相互作用网络才能体现生物功能；

3.通过系统地整合生物过程不同阶段的分散数据，如基因组、转录组、蛋白组、代谢组，可以对复杂的生物过程，如蛋白折叠、信号传导、代谢途径等进行更好的模拟，从而研究生物过程的动态变化；

4.不仅可以全面了解复杂的生命系统中的所有成分以及它们之间的动态联系，还可以预测如果系统受到一定的外界刺激或扰动，会作出何种响应以及发生何种变化。

思考题5：什么是非编码序列，非编码RNA和非编码基因？请以人类基因组为例，说明：1、非编码序列在基因组中所占的比例？2、基因组中非编码序列有多少被转录？

一、概念

1.非编码序列：基因组中不编码任何蛋白和多肽的序列，也就是基因组中不归属于基因调控元件、稳定元件的，也无明确生命学功能意义的基因序列统称为非编码序列，即不编码蛋白质同时也无明确生物学功能的序列。

2.非编码RNA：基因组中非编码序列的转录本，成为非编码RNA。

3.非编码基因：随着非编码RNA功能的深入研究，一部分非编码RNA研究了其特定的作用，而这段RNA对应在基因组中的基因即为非编码基因

二、人类基因组为例

1.非编码序列大约占基因组序列的97%，占据了基因组大部分。

2.基因组中非编码序列大多数都被转录（＞70%）。

三、非编码核酸的生物学功能：

①X染色体失活：一种哺乳动物的”剂量补偿基质“，其中X染色体的一半拷贝转录被抑制而失活。机制：一个2kb的非编码RNA（Xist RNA）装配到失活X染色体的外侧，引起结构改变导致失活。

②RNA干扰：一种由双链RNA（SiRNA）诱发的基因转录后沉默的现象。机理：双链RNA被Dicer酶切形成SiRNA，后解成单链并与一些蛋白构成RISC复合物，特异性降解mRNA，导致基因沉默。

思考题6 ：Contigs、Scaffolds、N50、L50

Contigs：A contigis a set of overlapping DNA segments that together represent a consensusregion of DNA.

通过双端测序得到的reads，通过片段重叠拼接成连续的DNA片段，这种连续的DNA片段就是contigs，当这个contigs不能继续通过连续的DNA片段延长了，就形成下一个contigs。

当从一个片段的两个序列末端读取的数据与两个不同的contigs中的序列重叠时，出现缺口。

Scaffolds：Ascaffold is a portion of the genome sequence reconstructed from end-sequencewhole-genome shotgun clones. Scaffolds are composed of contigs and gaps

多个contigs可以通过双端测序的reads重叠建立联系, 通过gaps来确定contigs之间的关系，组成的一个更长的contigs的组合即为scaffolds。由Contigs和Gaps组成。

N50：Given aset of contigs/scaffolds, each with its own length, the N50 length is definedas the length for which the collection of all contigs of that length or longercontains at least half of the sum of the lengths of all contigs, and for whichthe collection of all contigs of that length of shorter also contains at leasthalf of the sum of the lengths of all contigs. This can be thought of as thepoint of half of the mass of the distribution; the number of bases from allcontigs shorter than the N50 will be close to the number of bases from allcontigs longer than the N50.

给定一组contigs/scaffold，每个都有自己的长度，N50长度定义为该长度或更长的所有contigs的集合至少包含所有contigs长度总和的一半，对于它，所有这段较短的contigs的集合也至少包含所有contigs长度总和的一半。这个点可以被认为是分布质量的一半;所有小于N50的contigs的碱基数将接近于所有大于N50的contigs的碱基数。

L50: The number of contigs whoselength sum produces N50. 长度和为N50的contigs的个数。

N50越大，L50越小，拼接效果越好。

思考题7： Greedy Algorithm贪心算法

一、贪心算法：启发式算法，即在每个阶段做出局部最优选择，以期找到一个全局最优结果。

贪心算法是一种遵循求解启发式的算法，在每个阶段进行局部最优选择，以期找到全局最优。

二、贪心算法的问题：

1.贪心算法可以被描述为“短视”，也可以被描述为“不可恢复”；

2.贪心算法通常（但不总是）无法找到全局最优解，因为它们通常不会对所有数据进行整体的操作。这个方法会过早地做出选择，导致无法在之后找到最佳的整体解决方案；

3.尽管如此，这个方法还是有用的，因为它可以很快就想出办法，而且常常能给出最佳的近似值。

三、适用于贪心算法的情况：

1.如果问题的最优解包含子问题的最优解，则该问题显示出最优子结构；

2.贪心算法所做的选择可能取决于到目前为止所做的选择，但并不取决于未来的选择或子问题的所有解。

四、案例

案例1：

案例2：

案例3：

思考题8 ：基因预测精度的测量

Truepositive（TP）：真阳性，是外显子且被预测为外显子。

Truenegative（TN）：真阴性，不是外显子且被预测为不是外显子。

Falsepositive（FP）：假阳性，不是外显子却被预测为外显子，第一类错误。

Falsenegative（FN）：假阴性，是外显子却被预测为不是外显子，第二类错误。

灵敏度：在所有阳性结果中被正确预测为阳性的比例，也就是真阳性占实际的阳性的比例；

特异性：在所有阴性结果中被正确预测为阴性的比例，也就是真阴性占实际的阴性的比例；

（不要丢掉百分号）

思考题9 RNA二级结构预测

思考题10 人类基因组相关概念

1.genotype（基因型）： thegenetic constitution of the organism.生物体的遗传构成。

2.phenotype（表型）： thecomposite of an organism's observable characteristics or traits.生物体可观察到的特点或特征的总和。

3.Trait （性状）：is adistinct variant of a phenotype characteristic of an organism that may beinherited, be environmentally determined or be a combination of the two.性状是生物的表型特征的不同变异，可能是遗传，环境决定或两者共同作用的结果。

4.Locus（基因座）：achromosomal location.染色体的一个位置，基因在染色体上的位置。

5.Alleles（等位基因）：refersto any one of two or more genes that may occur alternatively at a given site(locus) on a chromosome.一般指位于一对同源染色体的相同位置上、控制着相对性状的一对基因。

6.Mutation（突变）：a changein the genetic material, usually rare and pathological.遗传物质的改变，通常是罕见的和致病的。

7.Polymorphism（多态性）：a changein the genetic material, usually common and not pathological.遗传物质的改变，是个体之间正常的差异，但比较普遍，且不致病。

8.Homozygote (纯合子) ：an organism with identical pair of alleles for a specific trait.同源染色体上相同位点等位基因相同的基因型个体。

9.Heterozygote (杂合子)：an organism that has different alleles at a particular gene locus onhomologous chromosomes. 同源染色体上相同位点等位基因不同的基因型个体。

10.Hemizygote (半合子)： an organism that has only one allele for a specific trait. 对一种特定的性状只有一个等位基因的基因型个体。

Males are hemizygous for most genes on the sexchromosomes.雄性在性染色体上的大多数基因是半合子的。

11.Dominant trait （显性性状）： a traitthat shows in a heterozygote.在杂合子中显示的性状。

12.Recessive trait （隐性性状）： a traitthat is hidden in a heterozygote.隐藏在杂合子中的性状。

13.karyotype（核型分析）：Akaryotype is the number and appearance of chromosome in the nucleus of aneukaryotic cell.核型是指真核细胞细胞核中染色体的数目和出现情况。

14.Population Genetics（群体遗传学）：Population genetics is the study of variation within populations ofindividuals, and the forces which shape it. This involves studying changes inthe frequencies of genetic variation in populations over space and time.群体遗传学是研究群体内个体的变异，以及形成变异的力量。这涉及到研究种群在空间和时间上遗传变异频率的变化。

15. Population（种群）：Aninterbreeding group of the same species in a given geographical area. 同一物种在特定地理区域内的杂交群。

16.Population genetics （种群遗传学）：The study of the genetics of a population and how the alleles vary withtime.对一个种群的遗传学以及等位基因如何随时间变化的研究。

17.Gene pool（基因库）：Thecollection of all alleles in the members of the population. 种群成员中所有等位基因的集合。所以计算时每个个体的两个等位基因都要考虑在内。

18.Gene flow（基因流动）：Movementof alleles between populations when people migrate and mate. 当种群迁移和交配时，等位基因在种群之间的移动。

19.Allele frequency（等位基因频率）：特定等位基因/所有等位基因。每个个体的两条染色体都要考虑。【2*纯合子+杂合子】

20.Cohort（队列）：a groupof people who share a common characteristic or experience within a definedperiod (e.g., are born, are exposed to a drug or vaccine or pollutant, orundergo a certain medical procedure). 在一定时期内具有共同特征或经历的一个群体。（例如，出生日期，使用同种药物、接种同种疫苗或接受特定的医学治疗）。

21. Pedigree chart （谱系图）：A chartshowing the genetic connections between individuals. 显示个体之间基因联系的图表。

22.Microevolution（微进化）：Thesmall genetic changes due to changing allelic frequencies in populations. 由于群体中等位基因频率的变化引起的小的遗传变化。五个因素:非随机交配、迁移、遗传漂变、突变和自然选择。

23.Genetic drift（基因漂移）：is thechange in the frequency of a gene variant (allele) in a populationdue to random sampling of organisms. 是由于机体的随机抽样，导致一个种群中等位基因频率的变化。

24.Linked Genes（连锁基因）: Geneslocated together on a chromosome. Linked genes can assort separately from oneanother only through crossing over.位于染色体上一起的基因，连锁基因只有通过交叉互换才能进行单独的组合。在染色体上，两个基因越接近，它们越有可能是连锁基因。分为完全连锁和不完全连锁。

25. Missense mutation（错义突变）：A point mutation in which a single nucleotide change results in a codonthat codes for a different amino acid. 一种点突变，其中单个核苷酸的变化导致编码不同氨基酸的密码子的改变。会改变蛋白质序列，一般发生在遗传密码子的第一位或第二位。

26. Nonsense mutation（无义突变）：A pointmutation that results in a stop codon (nonsense codon) in a transcribed mRNA,which encodes incomplete and usually nonfunctional protein product.在转录的mRNA中引入终止密码子的点突变。会导致翻译提前终止，得到不完整、无生物功能的蛋白质。更易造成疾病。

27. Synonymous mutation（同义突变）：基因发生了点突变，但由于密码子的简并性，并没有影响翻译的蛋白质，但也会因为影响了密码子的使用，会影响翻译过程而导致疾病。

28. rs#：Reference SNPs已经被计算/整理过的SNPs。

ss#：Submitted SNPs，提交的数据，即序列变化的原始观测。

29. Copy number variation (CNV)（拷贝数变异）：Copy number variation (CNV) of DNA sequencesconstitute large segments of DNA ranging from 1 Kb that have copy numberdifferences when compared to a reference genome.与参考基因组相比，DNA序列的拷贝数变异(CNV)构成了从1 Kb不等的DNA大段，具有拷贝数差异。

基因拷贝数异变:删除、复制、插入,倒置……

CNV的致病性更强，比SNP更容易被发现，CNVs可以通过细胞遗传学研究检测到。

30. Genome Wide Association Study (GWAS)（全基因组关联分析）：GWAS isthe study of genetic variation across the entire genome that is designed toassociate genetic variations (SNPs) with traits or with the presence or absenceof disease or condition. GWAS是研究整个基因组的遗传变异，旨在将遗传变异(SNPs)与性状或疾病或状态的存在或不存在联系起来，全基因组信息，结合临床和其他表型数据，提供了潜力:增加了对影响人类健康的基本生物过程的了解；疾病预测和病人护理方面的改进；实现个性化医疗的承诺