生信怎能少的了你？

作者: 刘小泽 | 来源:发表于2018-12-03 22:34 被阅读113次

生信怎能少的了你？
贫穷人的烦恼~
信望爱
2017-07-15
留在深山的根
罗马书信息第四十八讲：犹太人的悖逆(网录，作者加恩)
怎能忘记
《调整状态，怎能少的了团剧帮忙》
人生所欠者胜繁，唯父母恩还不完
活法感悟

刘小泽写于18.12.3 喜欢这种带着记录去学习的方法😋
说点杂七杂八～
好多做生信的牛人都是计算机高手，但这个领域不是IT，它需要知识的交叉，不是简单会编程跑代码就可以的【之前听师兄说过，他工作的公司有一个写代码很6的人，不知道PCR用的是单链还是双链】。在我看来，生信不仅仅是计算和统计，它还要讲好一个生物学故事～

因此，我打算回过头来，拾起那本搁置多年的生物化学，第一次不为考试而复习。别说，今天晚上花了一个半小时，真的认认真真看完一章。给我最大的感受不再是“谈生化色变”【还记得当前大学时代说的“生理生化，必有一挂”】，而是“书中的逻辑原来如此清晰！”“这些知识原来书里都有啊！”看来真的随着时间的推移，思维发生了转变，越来越想系统性地学习一套理论了
知识就是慢慢消化的过程🧐

真核基因结构

我们都知道基因组英文名是GENOME（名称来源是：GENe + chromosOME），它是一套完整单倍体遗传物质的总和

基因包括编码序列（外显子）和编码区前后对基因表达有调控作用的序列和单个编码序列的间隔序列（内含子）

不同基因外显子含量不同（几个-几十个）
绝大部分编码蛋白的基因都有内含子，但组蛋白编码基因除外；内含子数量和大小很大程度决定基因大小；
不同种属中，外显子通常保守，内含子变异较大。exon与intron接头有一段高度保守的序列：intron的5’末端大多以GT开始，3’末端以AG结束，属于共有序列（consensus seq），是RNA剪接的识别信号
基因5’为上游，3’为下游；基因序列中开始RNA链合成的第一个核苷酸对应的碱基为+1，此碱基上游为负数（向5’端方向为-1、-2）；没有0这个位置
大多基因通过mRNA为pro编码；还有仅为特定功能的RNA编码的基因，如rRNA、tRNA等；相同DNA序列由于起始位点变化或剪接方式不同可以编码不同多肽链

真核基因功能

编码区（coding region） + 非编码区 【为表达这些基因（即合成RNA）需要的启动子（promoter）、增强子（enhancer）等调控区（regulatory region）序列】

表达调控

调控区：转录区前后并紧接的序列（旁侧序列 flanking seq），又称为顺式作用元件（cis-acting element），包括：启动子、上游调控元件、增强子、加尾信号、细胞信号反应元件

启动子：提供转录起始信号。转录起点上游，本身通常不被转录【但是比如编码tRNA的启动子可以在转录起始下游，可以被转录】

真核生物3类启动子：
- I类富含GC碱基对，编码rRNA，包含核糖体起始因子（ribosomal initiator， rInr）和上游启动子元件（upstream promoter element， UPE），增强转录起始；
- II类由 TATA box、上游调控元件（如增强子和起始元件Inr组成），编码mRNA、小RNA基因。TATA box核心序列：TATA（A/T）A（A/T)， 决定RNA合成起始点；TATA box上游还可以有CAAT盒、GC盒；
- III 类： A、B、C盒，如5S rRNA、tRNA、U6snRNA等
增强子：增强临近基因的转录【最重要的调控序列】，决定每一个基因的表达水平。可以在启动子任何位置（上/下游发挥作用，但大多在上游）

距离调控基因几十bp-几k bp，一般几个enhancer聚在一起成簇，可位于内含子中
沉默子 silencer：结合反式作用因子一致转录的特定DNA序列

关于基因组

独特结构

基因组中编码序列占全基因组1%；一个基因全部序列中，编码序列占5%
大量重复序列（人50%以上）
多家族基因、假基因
人类基因组：30亿bp，约2-2.5w基因，1.5w基因家族【基因家族中，没有正常功能的成员叫假基因Pseudogenes】
约60%人的基因有可变剪切，可变剪切中有80%导致蛋白序列改变

大量重复序列

占基因组长度50%以上，各个序列长度不等，短的2bp，长达上千bp
重复频率不同，包含了：
- 高度重复：频率百万次以上短核苷酸，占基因组长度20%，不编码RNA/pro。按结构特点分为反向重复（inverted repeat sequence）和卫星DNA （satelitte DNA）
  其中反向重复是两个相同顺序的互补拷贝在同一DNA链上反向排列，长约300bp，占5%，多数分散；
  
  卫星RNA是2-10bp的重复单位成串排列，位于着色粒，占5-6%
  
  高度重复作用：参与复制水平调节（反向重复序列位于DNA复制起点附近，是一些蛋白质或酶的结合位点）；参与基因表达调控（转录到核内不均一RNA分子上；有的反向重复序列形成发夹结构，稳定RNA分子）；参与染色体配对（如alpha 卫星DNA成簇聚集在着丝粒附近=》减数分裂）
- 中度重复：重复几十-上千次，占单倍体基因组1-30%，大多与单拷贝基因间隔。按长度分为：短分散（SINES）和长分散（long interspersed repeat segment， LINES）
  
  短分散：平均长度300-500bp，与平均长度1k的单拷贝序列间隔排列，拷贝数达数十万。如Alu家族、Kpn I家族、Hinf家族等。
  Alu家族是人基因组中最丰富的短分散中毒重复片段，约6k就有一个Alu序列，单倍体重复达30-50w，占基因组3-6%。家族中每个成员长约300bp，它们共性是含有限制酶ALu的切点（AG||GC），切成130和170bp两段； Kpn I家族为第二大家族，拷贝数约3000-4800个，占基因组1%； Hinf家族中长度319bp
  
  长分散：平均分散3500-5000bp，大多不编码蛋白
- 另外rRNA也是中度重复序列【特点：各重复单位中rRNA基因都相同】，成簇存在如染色体核仁组织区【人类rRNA位于13、14、15、21、22染色体的核仁组织区，每个区平均含50个重复单位； 5S rRNA基本位于1号染色体，每个基因组约1000个5S rRNA】