2021-12-12转录组分析（四）--王通老师讲解

作者: 不如好好学生信吧 | 来源:发表于2021-12-12 23:49 被阅读0次

2021-12-12转录组分析（四）--王通老师讲解
转录组分析（五）--王通老师讲解
1130转录组分析（三）--王通老师讲解
生信菜鸟团-专题学习目录
1.转录组 | 上游分析（数据下载，比对，计数）
转录组学习三（数据质控）
转录组学习二（数据下载）
转录组学习五（reads比对）
转录组学习八（功能富集分析）
转录组学习六（reads计数与标准化）

09测序数据处理（不是不好就不用，而是要尽可能去处理，挖掘数据的价值；即使是好的数据也需要处理）---也就是对数据进行过滤。

[if !supportLists]1. [endif]过滤啥（1）非“基因组”本身序列（自身加的4个，adapter接头；测序引物；barcode;index等）1.1 去adapter反向互补，adapter一般在0.1以下；1.2 去除含N碱基过多的reads(错配最多5bp reads)，超过10%碱基数就去掉 1.3 去除低质量部分如以Q20作为判断标准（若大于30%，则去掉整条reads）如果测序数据足够，不会因为随机性不好而产生问题，比如基因组有些部分不好测，paired的 reads只要有一个不满足条件，同时去除两条reads；去掉reads1与reads2完全一致的片段（DNA中要去除打断不随机的duplication，但RNAseq中不能去除，否则会造成丰度丢失。但如果是无参转录组，拼接时需要去除duplication---即拼接时去除duplication，基因表达定量时保留duplication）----注意RNAseq与DNAseq的区别。

[if !supportLists]2. [endif]低表达基因如果比较多，为了不影响定量，可以截短reads进行比对,如果测序量足够多，影响不大。

[if !supportLists]3. [endif]数据处理原则：（1）不要求100%精确，原则是不影响后续分析（2）可以根据最终结果，重新过滤数据

10 RNAseq测序FAQ

[if !supportLists]1. [endif]RNAseq相比于其他方法的优势（1.可以直接测定每个转录本序列、单核苷酸分辨率，低噪音 2.灵敏度高，可以检测细胞中至少几个拷贝的稀有转录本 3.可以对任意物种进行全基因组分析，无需预先设计探针 4.检测范围广，能同时定量检测稀有转录本与正常转录本）

[if !supportLists]2. [endif]不同测序平台RNAseq测序的比较 （1. 454与Pacbio可以测全长，但是丰度低，成本高2.illumina与ion Torrent无法测序全长转录本，但数据量大，成本低；适合高通量RNAseq测序）

[if !supportLists]3. [endif]mRNA的纯化分离方法（1.真核生物：磁珠富集或消除rRNA 2.原核生物：只能消除rRNA; 3宏基因组样品：分别去除真核rRNA与原核rRNA）

[if !supportLists]4. [endif]转录组测序有什么样的样品要求：1.样品纯度（OD值应在1.8-2.2之间；电泳检测28S：18S至少大于1.8） 2.样品浓度：总RNA浓度不低于400ng/ug，采用Truseq微量转录建库策略，样品量可以稍微小一些，200ng也可以。

[if !supportLists]5. [endif]如何选择反转录引物（1.oligo dT引物（引物扩增片段长度偏短，且偏向3’端问题，不利于序列识别和分析） 2.随机引物：由于实验之前已经采用oligo dT微磁珠进行纯化，因此反转录只能采用随机引物进行cDNA的合成））----随机引物能够读到更多的CDS信息，而oligo dT引物只能读到更多的3’端信息，随机引物的妙用啊***原来如此，否则怎么可能读的了这么多基因呢，要读就随机引物来反转录了。只能随机引物---反转录。

[if !supportLists]6. [endif]FFPE样品建库测序（福尔马林石蜡包埋，珍贵样品，FFPE样本的DNA容易发生严重的降解、损伤、分子或生物学修饰，因此从这种样品中获得完整样品具有一定的难度，这需要找可信的厂家去做）

11 RNAseq有无参考序列的差别

[if !supportLists]1. [endif]（将高通量的reads比对到参考序列中是最重要的步骤，后续所有结果都是基于此分析的。参考序列数据越准确越好，理论上用自身的作为参考最好，但是很难达到；通常用同一物种的全基因组序列）因为同一种物种之间的全基因组数据都存在很大的区别（单大肠杆菌都可以由4.5M到5.7M）

[if !supportLists]2. [endif]参考序列的影响（举例Query中的5204个基因，参考序列4140个基因）

[if !supportLists]3. [endif]RNAseq分类（1.有参考序列的RNAseq 2.无参考序列的RNAseq Denovo）

[if !supportLists]4. [endif]有无参考序列的差别（1.新转录本 2.可变剪切 3.基因融合 4.SNP 5.InDel 6.RNA编辑均在Denovo中无法进行，因为需要已知的参考基因组和染色体信息---结构相关的信息分析在Denovo分析中均无法进行。）

12真核与原核RNAseq的差别

[if !supportLists]1. [endif]原核生物是指没有成形的细胞核或线粒体的一类单细胞生物，主要包括三菌三体。

[if !supportLists]2. [endif]区别（1原核没有成熟的细胞核（2基因组通常比较小，一般小于10M.大部分在4-5M （3通常只有1条染色体（4GCf范围大，以25%-70%都存在（5基因组组成比较简单，基因去占大部分，通常80%以上，重复序列少（5遗传信息连续，无内含子（6转录生成的mRNA加工成熟之后3‘端没有polyA尾巴

[if !supportLists]3. [endif]原核RNA seq的特点（1.结构上可变剪切、基因融合、杂盒一般不存在，不用考虑；2.3’端不存在polyA尾，不能用磁珠富集；3对于原核生物通常可以找到近源参考序列用于RNAseq分析4.基因之间可能存在overlap 5.具有操作子结构）原核生物在基因组上有比较大的差别，注意参考序列要特别注意，一定要选择最近源的----真核生物还好，影响没那么大。

13 参考序列

[if !supportLists]1. [endif]参考序列的要求（1.与测序样品比较近（同）源；2.参考序列本身越完整越好（目前很多基因组还是草图水平，还不能包含基因组上所有的信息。一个好的参考序列最好拥有完整的参考基因组，每条染色体区分开，才能检测基因融合，而且参考序列染色体完整，才能识别链特异性；物种基因信息完整，才能知道是否表达了，否则比对不上） 3.注释信息全面 4.文件格式要规范（因为有些软件需要特定的格式，否则需要不停地转换））

[if !supportLists]2. [endif]参考序列（1.fasta格式地序列文件 2.包含转录本信息的GTF文件（包含基因与转录本信息，里面可以告诉你哪些是内含子，哪些是外显子） 3.包含转录本信息的BED文件） ----如果想要下载所属物种的参考序列，请进入UCSC网站

[if !supportLists]3. [endif]下载：UCSC---->Download---->Genome Data---->选物种；此外可以利用rsync远程同步下载，好处在于可以远程同步，当服务端对文件进行更新后，无需下载，直接替换更新即可。

[if !supportLists]4. [endif]UCSC genome Bioinfomatics中下载GTF文件与BED文件，下载相应物种序列，本身不含GTF文件，需要转换。人常用hg19与hg18

[if !supportLists]5. [endif]王老师展示了如何下载人基因组参考序列数据的的下载。

14 GTF与BED文件格式（都是用来存储转录本信息的）

[if !supportLists]1. [endif]GTF文件ls -S查看下每列内容具体如下---（内包括基因所处位置，来源，功能，对应reads信息，p值（可以是基因预测的内容），正反向链，最后一列为属性选项）-----不同GTF文件，属性内容有很大差别

[if !supportLists]2. [endif]另外一种存储转录本信息的格式---BED格式（BED行有三列必须的，九列可选的，第一列是所属染色体）一个转录本为一行（一个基因对应多个转录本，可见一个基因对应多个转录本）

15 Bowtie比对（比对速度快，常用于RNAseq分析之中）

[if !supportLists]1. [endif]利用Bowtie比对，将Tophat加cuplink组合分析RNAseq数据，（Bowtie与Tophat属于同一个作者，Tophat大量借鉴Bowtie）Bowtie1适用于50bp以内，Bowtie2适用50bp以上，单有些平台不能使用

[if !supportLists]2. [endif]unzip 解压缩

[if !supportLists]3. [endif]比对具体过程：bowtie2 -x(索引文件)

bowtie2-build -f reference/lamba_virus.fa(索引建立)

bowtie2 -x lambda_virus -l re

bowtie2 -x lambda_virus -l reads/reads_1.fq -2 reads/reads_2.fq -S bowtie.sam（-S接输出文件结果）

le bowtie.sam（输出项目格式），可以利用samtools进行处理

16 sam文件格式

[if !supportLists]1. [endif]sam是一种序列比对格式标准，全称是（The sequence Alignment/Map(SAM) format），由sanger制定。是以TAB为文本分隔符。主要用于测序序列maping到基因组上的结果表示，当然也可以表示任意的多重比对结果。其二进制的形式是Bam格式

[if !supportLists]2. [endif]短序列比对需要记录的信息

（1 pair-end比对还是single比对

（2 一对一比对还是一对多比对

（3 有无错配比对

（4具体比对到哪条参考序列

（5比对的具体位置信息以及具体比对细节

（7具体哪发生了错配、删除与插入

[if !supportLists]3. [endif]less -S all.sam（文件相对较小可以打开）；bam文件比较大，不能够打开（会刷屏）注释信息--@啥

[if !supportLists]4. [endif]sam 12行，每行包括12列，从左到右第二列是flag标记，标记信息可以通过（-1 -2 -4 -8等来反映）第五列maping的匹配值第六列CIGAR字符串如37M1D2M1I（M-匹配；D-删除；I-插入）第7列：read序列在参考序列上的名称第8列read序列在参考序列的位置第九列：估计片段的长度第十列：reads序列 11：ASCII质量值 12：比对的的具体细节 AS:i 匹配的得分 XS：i第二好的匹配得分

17 samtools（比对产生的数据为sam或bam格式，需要samtools进行后续处理）

[if !supportLists]1. [endif]samtools能够进行sam与bam文件的格式转换，结果排序，覆盖度统计，变异检测等功能。

[if !supportLists]2. [endif]samtools是一类非常重要的软件，学生信必须掌握，可以从samtools官网网页上进行下载，作者以0.1.19版本进行展示（建议下载最新版本）

[if !supportLists]3. [endif]tar- xjvf samtools-0.1.19.tar.bz2^C(注意王老师更喜欢本地下载，然后解压缩安装)（听课思考我觉得开一门RNAseq的课先讲其所涉及内容的二级结构（它是谁，有什么用，为什么要用它）以及整个流程显得效果会更加好。---自身可以多思考进行整理下）

cd samtools-0.1.19./ （进入） ll（查看） le INSTALL (准备安装) make ^C(安装前进行变异)

如果报错缺乏相应zlip.的文件，则需要安装相应的zlip库

[if !supportLists]4. [endif]安装完成之后，目录中会有samtools文件，此外还会有bcftools文件目录example目录下有测试数据 misc/文件下有很多小工具，主要是用于文件格式转换等啥的

[if !supportLists]5. [endif]示例SAM转换为二进制的BAM（省内存以及有的软件要求如此）（多查看help文档）

samtools view -bS test/all.sam -o all.bam (转换 -o是输出文件) samtools sort（排序，通常按染色体位置进行排序）

为了提高比对效率，有时会将测序数据与每条染色体进行比对，比对之后会生成多个Sam格式的结果，这个时候就能使用merge选项来进行合并； depth是用来进行覆盖文件深度的计算，必须是排序后的结果 samtools tview （能够以文本的选项进行查看，但要求先进行排序，然后还需要先建立一个索引samtools index ref.fna，最后samtools tview后面接排序好的bam文件即可查看）samtools mphileup （内含多种参数，特别注意SNP/INDEL参数的使用，会将每个位点的比对细节信息进行整理，一般会配合bcftools进行检测）如何使用samtools进行结构变异的检测 (了解samtools的功能与参数可以通过help文档)

18 tophat比对工具（一）

1.RNAseq中必须掌握的工具，可以将RNAseq数据进行快速剪接映射的程序，它使用了超快的高通量短序列比对用法，将RNAseq比对到的reads比对到参考基因组上，然后分析映射结果来鉴定外显子鉴定时的剪接点。tophat与Bowtie均属于马里兰大学同一作者开发的。

Tophat需要首先使用Bowtie来进行没有切分reads的比对，之后将没有比对上的reads进行spliced切割的方法进行比对，这些没有比对上的reads有些是因为来自不同的外显子，发生了可变剪切；利用Bowtie无法比对上，所以必须使用tophat才能够进行比对

作者建议下载编译好的版本，解压缩之后就能够使用了。

[if !supportLists]3. [endif]tophat使用源码编译会稍微复杂一些，需要安装bowtie1,bowtie2,samtools等，如果不需要开源码，只使用tophat工具，建议直接下载编译好的版本

（注tophat需要调用bowtie等进行比对，所以用tophat必须存在bowtie，这就是所谓的依赖关系）

[if !supportLists]4. [endif]作者下载了最新版本软件进行安装（可以将相应软件存放到bin目录下，也可以将其放到自身建立的文件夹下，但要将这个目录写到自身的fastrc文件中，添加到path路径中）：

（1 tophat使用与bowtie类似，注意它的建立索引是以bowtie建立索引，tophat1对应bowtie1，tophat2对应bowtie2

（2tophat常用参数介绍 -o输出，内含各种参数，按序输入 -G（要输入GTF文件，若设置了该参数，tophat则先提取转录组序列，然后从bowtie2将reads比对到提取的转录组数据中。所以不能比对上的reads再比对到Genome,比对到的reads再打断，再融合相应的junction进行输出-----不了解基因融合检测）文件最好使用GTF文件。--solexxa -quals（使用solexa格式的文件合适，也就是solid平台产生对应的Phread64,但是目前多用Phread33），一般为提高比对效率，会用多线程进行处理。

2021-12-12转录组分析（四）--王通老师讲解
09测序数据处理（不是不好就不用，而是要尽可能去处理，挖掘数据的价值；即使是好的数据也需要处理）---也就是对数据...
转录组分析（五）--王通老师讲解
19 tophat(二) 具体演示（重中之重来了） A为对照组，B为处理组，A和B都采用illumina测序，re...
1130转录组分析（三）--王通老师讲解
1130 RNAseq生物信息分析（王通老师） 01课程介绍 [if !supportLists]1.[endif...
生信菜鸟团-专题学习目录
生信菜鸟团-专题学习目录原文链接转录组专题转录组专题-可变剪接转录组专题-融合基因转录组专题-WGCNA分析...
1.转录组 | 上游分析（数据下载，比对，计数）
参考：转录组分析记录；转录组入门和进阶以下内容为转录组全部的上游分析，包括下载数据、比对、计数得到表达矩阵。ht...
转录组学习三（数据质控）
转录组学习一（软件安装）转录组学习二（数据下载）转录组学习三（数据质控）转录组学习四（参考基因组及gt...
转录组学习二（数据下载）
转录组学习一（软件安装）转录组学习二（数据下载）转录组学习三（数据质控）转录组学习四（参考基因组及gt...
转录组学习五（reads比对）
转录组学习一（软件安装）转录组学习二（数据下载）转录组学习三（数据质控）转录组学习四（参考基因组及gt...
转录组学习八（功能富集分析）
转录组学习一（软件安装）转录组学习二（数据下载）转录组学习三（数据质控）转录组学习四（参考基因组及gt...
转录组学习六（reads计数与标准化）
转录组学习一（软件安装）转录组学习二（数据下载）转录组学习三（数据质控）转录组学习四（参考基因组及gt...