美文网首页
《生物信息学课程导引》阅读笔记

《生物信息学课程导引》阅读笔记

作者: 宇宙独一无二的我 | 来源:发表于2017-01-26 12:45 被阅读334次

    原书名为:《生物信息学课程导引-生物信息学研究生暑期学校讲义》,是一本张学工写的英文版的生物信息学的入门书籍,涵盖了众多生物信息学的入门知识。

    Chapter 1 Basics for Bioinformatics

    容易和生物信息学混淆的一些学科名词,如下:

    • Computational Molecular Biology (计算分子生物学):更关注计算生物学中的分子层面.
    • Computational Biology (计算生物学): covers all efforts of scientific investigations on or related with biology that involve mathematics and computation.
    • Bioinformatics (生物信息学): 研究生物学数据(核酸和氨基酸数据),的存储,操作和解释,研究控制和影响不同类型生物结构,功能及进化的分子规则。

    研究生物信息的人通常会做如下研究:

    • 开发新的计算工具(软件或者硬件),来更好的处理和分析生物学数据。
    • 开发新的模型和算法,来解决已有的研究问题。
    • 开发新的方法来分析新的实验技术带来的数据。
    • 通过信息和系统的视角来研究生物虚的。

    1.2 Some Basic Biology

    1.2.1 Scale and Time

    • 生物学研究的对象通常尺寸都很小,如细胞,病毒等等往往在微米和纳米量级,因此产生了很多研究的实验手段和数据来对他们进行分析。

    • 生命的产生历史很长,将地球历史比作30天的话,生命产生在第3天就开始了。而植物和动物在第27天产生,哺乳动物在28天产生,人类在最后一天的最后10分钟产生,人类记录的历史仅仅是最后的30s中时间,因此生物进化上的时间尺度是很大的。通过长久的演化,才有了今天的生物多样性。

    1.2.2 Cells

    • 讲了原核细胞(prokaryotic cell)和真核细胞(eukaryotic cell)的区别和物种构成。
    • 染色体和染色质的概念

    1.2.3 DNA and Chromosome

    • 讲了DNA的构成,核酸,五碳糖,含氮碱基(ATCG).
    • RNA的构成。
    • DNA5'端和3'端的概念
    • 碱基互补配对原则
    • 核小体,组蛋白的结构。

    1.2.4 The Central Dogma

    • 讲了中心法则,生命信息从:DNA-> RNA -> 蛋白质,的流动过程。
    • 翻译的大概规则,按照密码子的映射表,从RNA->多肽链。
    • 密码子与氨基酸的多对一的对应关系。
    • 起始密码子AUG,终止密码子(CAA,CAG,UGA)。
    • 转录的分子过程,转录后的剪接加工过程。
    • 真核和原核生物转录过程的区别。
    • mRNA的量与基因表达量的关系。

    1.2.5 Genes and the Genome

    • "基因"中文名的来历。
    • 转录的产物RNA不一定都编码蛋白质,非编码RNA(microRNA等)。
    • DNA片段长度的单位。
    • TSS(转录起始位点)
    • 顺式调控元件(cis-element),可以结合转录因子(TF, Transcription Factor)的地方,通常在TSS上游。
    • 反式调控元件(trans-element),通常指与顺式调控元件结合的东西,通常指转录因子(TF)。
    • 启动子,定义较模糊,通常分三种意义:
      1. 核心启动子: 在TSS 附近,大约100bp长,与RNA II型聚合酶结合的部位。
      2. 接近的启动子(proximal promoter):几百bp长,包括某些特定调控因子的结合位点,在核心启动子的上游较近的地方。
        3.远端启动子(distal promoter):在TSS上游几千bp的位置,提供额外的调控信息。
    • 外显子,内含子的概念
    • 选择性剪切的概念
    • UTR的含义(UnTranslated Region),分5'-UTR和3'-UTR。
    • CDS: Coding DNA Sequences,编码翻译蛋白质的DNA外显子部分的序列。
    • isoform:同一个基因的不同选择性剪切翻译出不同蛋白质的不同DNA的序列。
    • 基因组的概念:原来是只指CDS的基因,现在因为发现高等生物只有很少一部分是CDS之后,基因组的概念变为某个生物体的全部DNA。
    • 人类基因的数量:20000-25000,总序列长度:3 billion bp,23对染色体。编号按照染色体长度从大到小排列的,除了21号比22稍短。
    • 蛋白质编码的序列之占1.5%-2%的基因组序列。平均基因长度3000 bp。
    • 部分植物的基因组的长度,以及基因的数量远高于人类,但这与生物体的复杂性没有太大的关联。

    待解决问题1:目前绝大多数的no-coding RNA的功能尚不明确,但是某些对基因的表达和调控,剪接过程起着至关重要的作用。

    1.2.6 Measurements Along the Central Dogma

    • 高通量的概念:obtain measurements of thousands of objects in one experiment in a short time.
    • 高通量数据的产生也是催生生物信息学的动机。

    1.2.7 DNA Sequencing

    • 第一代Sanger测序的原理:利用ddNTP的3号位缺少一个OH基团,因此DNA在利用这种核苷酸进行DNA合成的时候会终止。因此合成后的DNA长度各不相同,只要长度足够,在电泳上跑的长度各不相同,并且四种不同碱基的ddNTP所带的荧光标记颜色不同,使用特定装置可以读取出来,根据跑电泳得到的谱线和颜色的分布,可以推出原始DNA序列。
    • Sanger测序最大能测的DNA片段长度仅为800bp,因此科学家发明鸟枪法(将目的DNA随机地处理成大小不同的片段,再将片段序列(之间有重叠)连接起来的测序方法。)
    • 第二代测序:454,Solexa和SOLiD。
      • (下面的数据都仅仅是10年前的,大约08年左右的技术水平,现在这些公司的测序长度和通量都较以前大幅提高了)
      • 454:采用焦磷酸测序法,测序长度达到200-400,每次能产生100Mb的序列。适合de novo测序(从头测序)。
      • Solexa和SOLiD:产生的read仅有36nt,每次run能产生1-2Gb的数据量。适合重测序,或者转录组分析,SNP分析,CHIP-seq分析等等。

    1.2.8 Transcriptomics and DNA Microarrays

    • 通常细胞内如果对某种蛋白的需求量较大,会转录出更多份的RNA,因此RNA的数量某种程度上可以反映基因表达的水平。

    • 管家基因:对于所有组织和细胞,表达量都基本相同的基因,通常为生命过程必备的重要基因,如呼吸相关基因等等。

    • 高通量的转录组测序技术:微芯片或者微阵列。两种都是制成一种在芯片上点了许多DNA片段的小孔组成,某些DNA片段与待测的RN反转录出的cDNA片段互补,如果cDNA被荧光标记,则两者结合时会产生荧光,可以被装置捕捉,电脑分析后可以得到对应的序列。

    • 通常分两种微芯片:

      1. cDNA微芯片,通过两种对比的样本来得出表达量的比值,灵活性较高,因为可以自己设定具体芯片上要放哪些DNA片段。
      2. 寡核苷酸微芯片:通常一个基因对应一个探针,每个探针对应在芯片上同一区域的DNA片段(25nt)集合。目前已经可以做到整个人类基因组的基因集成在一个芯片上。
    • 典型的基于微阵列的研究是比较并获得在两种不同样本中差异表达的基因。

    • 现在对于某些非编码RNA也有了响应的芯片,如micro RNA (miRNA) 芯片。

    • 随着芯片上可以点的DNA的密度增加,一种叫tiling array的芯片产生了,它包含了所有基因组中的转录本(蛋白质编码的RNA,以及非编码的RNA)。

    • RNA-seq:使用二代测序的方式测定RNA反转录出cDNA的序列。

    待解决问题,不知道现在解决了没有:tiling array由于密度太高,噪声也非常大,因此数据分析可能会带来很多误差,对生物信息学提出了一个新问题。

    1.2.9 Proteomics and Mass Spectrometry

    相关文章

      网友评论

          本文标题:《生物信息学课程导引》阅读笔记

          本文链接:https://www.haomeiwen.com/subject/gxvxittx.html