09测序数据处理(不是不好就不用,而是要尽可能去处理,挖掘数据的价值;即使是好的数据也需要处理)---也就是对数据进行过滤。
[if !supportLists]1. [endif]过滤啥(1)非“基因组”本身序列(自身加的4个,adapter接头;测序引物;barcode;index等)1.1 去adapter反向互补,adapter一般在0.1以下;1.2 去除含N碱基过多的reads(错配最多5bp reads),超过10%碱基数就去掉 1.3 去除低质量部分如以Q20作为判断标准 (若大于30%,则去掉整条reads) 如果测序数据足够,不会因为随机性不好而产生问题,比如基因组有些部分不好测,paired的 reads只要有一个不满足条件,同时去除两条reads;去掉reads1与reads2完全一致的片段(DNA中要去除打断不随机的duplication,但RNAseq中不能去除,否则会造成丰度丢失。但如果是无参转录组,拼接时需要去除duplication---即拼接时去除duplication,基因表达定量时保留duplication)----注意RNAseq与DNAseq的区别。
[if !supportLists]2. [endif]低表达基因如果比较多,为了不影响定量,可以截短reads进行比对,如果测序量足够多,影响不大。
[if !supportLists]3. [endif]数据处理原则:(1)不要求100%精确,原则是不影响后续分析 (2)可以根据最终结果,重新过滤数据
10 RNAseq测序FAQ
[if !supportLists]1. [endif]RNAseq相比于其他方法的优势(1.可以直接测定每个转录本序列、单核苷酸分辨率,低噪音 2.灵敏度高,可以检测细胞中至少几个拷贝的稀有转录本 3.可以对任意物种进行全基因组分析,无需预先设计探针 4.检测范围广,能同时定量检测稀有转录本与正常转录本)
[if !supportLists]2. [endif]不同测序平台RNAseq测序的比较 (1. 454与Pacbio可以测全长,但是丰度低,成本高2.illumina与ion Torrent无法测序全长转录本,但数据量大,成本低;适合高通量RNAseq测序)
[if !supportLists]3. [endif]mRNA的纯化分离方法 (1.真核生物:磁珠富集或消除rRNA 2.原核生物:只能消除rRNA; 3宏基因组样品:分别去除真核rRNA与原核rRNA)
[if !supportLists]4. [endif]转录组测序有什么样的样品要求:1.样品纯度(OD值应在1.8-2.2之间;电泳检测28S:18S至少大于1.8) 2.样品浓度:总RNA浓度不低于400ng/ug,采用Truseq微量转录建库策略,样品量可以稍微小一些,200ng也可以。
[if !supportLists]5. [endif]如何选择反转录引物(1.oligo dT引物(引物扩增片段长度偏短,且偏向3’端问题,不利于序列识别和分析) 2.随机引物:由于实验之前已经采用oligo dT微磁珠进行纯化,因此反转录只能采用随机引物进行cDNA的合成))----随机引物能够读到更多的CDS信息,而oligo dT引物只能读到更多的3’端信息,随机引物的妙用啊***原来如此,否则怎么可能读的了这么多基因呢,要读就随机引物来反转录了。只能随机引物---反转录。
[if !supportLists]6. [endif]FFPE样品建库测序(福尔马林石蜡包埋,珍贵样品,FFPE样本的DNA容易发生严重的降解、损伤、分子或生物学修饰,因此从这种样品中获得完整样品具有一定的难度,这需要找可信的厂家去做)
11 RNAseq有无参考序列的差别
[if !supportLists]1. [endif](将高通量的reads比对到参考序列中是最重要的步骤,后续所有结果都是基于此分析的。参考序列数据越准确越好,理论上用自身的作为参考最好,但是很难达到;通常用同一物种的全基因组序列)因为同一种物种之间的全基因组数据都存在很大的区别(单大肠杆菌都可以由4.5M到5.7M)
[if !supportLists]2. [endif]参考序列的影响(举例Query中的5204个基因,参考序列4140个基因)
[if !supportLists]3. [endif]RNAseq分类 (1.有参考序列的RNAseq 2.无参考序列的RNAseq Denovo)
[if !supportLists]4. [endif]有无参考序列的差别(1.新转录本 2.可变剪切 3.基因融合 4.SNP 5.InDel 6.RNA编辑均在Denovo中无法进行,因为需要已知的参考基因组和染色体信息---结构相关的信息分析在Denovo分析中均无法进行。)
12真核与原核RNAseq的差别
[if !supportLists]1. [endif]原核生物是指没有成形的细胞核或线粒体的一类单细胞生物,主要包括三菌三体。
[if !supportLists]2. [endif]区别(1原核没有成熟的细胞核 (2基因组通常比较小,一般小于10M.大部分在4-5M (3通常只有1条染色体 (4GCf范围大,以25%-70%都存在(5基因组组成比较简单,基因去占大部分,通常80%以上,重复序列少(5遗传信息连续,无内含子(6转录生成的mRNA加工成熟之后3‘端没有polyA尾巴
[if !supportLists]3. [endif]原核RNA seq的特点(1.结构上可变剪切、基因融合、杂盒一般不存在,不用考虑;2.3’端不存在polyA尾,不能用磁珠富集;3对于原核生物通常可以找到近源参考序列用于RNAseq分析4.基因之间可能存在overlap 5.具有操作子结构)原核生物在基因组上有比较大的差别,注意参考序列要特别注意,一定要选择最近源的----真核生物还好,影响没那么大。
13 参考序列
[if !supportLists]1. [endif]参考序列的要求(1.与测序样品比较近(同)源;2.参考序列本身越完整越好(目前很多基因组还是草图水平,还不能包含基因组上所有的信息。一个好的参考序列最好拥有完整的参考基因组,每条染色体区分开,才能检测基因融合,而且参考序列染色体完整,才能识别链特异性;物种基因信息完整,才能知道是否表达了,否则比对不上) 3.注释信息全面 4.文件格式要规范(因为有些软件需要特定的格式,否则需要不停地转换))
[if !supportLists]2. [endif]参考序列(1.fasta格式地序列文件 2.包含转录本信息的GTF文件(包含基因与转录本信息,里面可以告诉你哪些是内含子,哪些是外显子) 3.包含转录本信息的BED文件) ----如果想要下载所属物种的参考序列,请进入UCSC网站
[if !supportLists]3. [endif]下载:UCSC---->Download---->Genome Data---->选物种 ;此外可以利用rsync远程同步下载,好处在于可以远程同步,当服务端对文件进行更新后,无需下载,直接替换更新即可。
[if !supportLists]4. [endif]UCSC genome Bioinfomatics中下载GTF文件与BED文件,下载相应物种序列,本身不含GTF文件,需要转换。人常用hg19与hg18
[if !supportLists]5. [endif]王老师展示了如何下载人基因组参考序列数据的的下载。
14 GTF与BED文件格式(都是用来存储转录本信息的)
[if !supportLists]1. [endif]GTF文件ls -S查看下 每列内容具体如下---(内包括基因所处位置,来源,功能,对应reads信息,p值(可以是基因预测的内容),正反向链,最后一列为属性选项)-----不同GTF文件,属性内容有很大差别
[if !supportLists]2. [endif]另外一种存储转录本信息的格式---BED格式 (BED行有三列必须的,九列可选的,第一列是所属染色体)一个转录本为一行(一个基因对应多个转录本,可见一个基因对应多个转录本)
15 Bowtie比对(比对速度快,常用于RNAseq分析之中)
[if !supportLists]1. [endif]利用Bowtie比对,将Tophat加cuplink组合分析RNAseq数据,(Bowtie与Tophat属于同一个作者,Tophat大量借鉴Bowtie)Bowtie1适用于50bp以内,Bowtie2适用50bp以上,单有些平台不能使用
[if !supportLists]2. [endif]unzip 解压缩
[if !supportLists]3. [endif]比对具体过程:bowtie2 -x(索引文件)
bowtie2-build -f reference/lamba_virus.fa(索引建立)
bowtie2 -x lambda_virus -l re
bowtie2 -x lambda_virus -l reads/reads_1.fq -2 reads/reads_2.fq -S bowtie.sam(-S接输出文件结果)
le bowtie.sam(输出项目格式),可以利用samtools进行处理
16 sam文件格式
[if !supportLists]1. [endif]sam是一种序列比对格式标准,全称是(The sequence Alignment/Map(SAM) format),由sanger制定。是以TAB为文本分隔符。主要用于测序序列maping到基因组上的结果表示,当然也可以表示任意的多重比对结果。 其二进制的形式是Bam格式
[if !supportLists]2. [endif]短序列比对需要记录的信息
(1 pair-end比对还是single比对
(2 一对一比对还是一对多比对
(3 有无错配比对
(4具体比对到哪条参考序列
(5比对的具体位置信息以及具体比对细节
(7具体哪发生了错配、删除与插入
[if !supportLists]3. [endif]less -S all.sam(文件相对较小可以打开);bam文件比较大,不能够打开(会刷屏)注释信息--@啥
[if !supportLists]4. [endif]sam 12行,每行包括12列,从左到右第二列是flag标记,标记信息可以通过(-1 -2 -4 -8等来反映)第五列maping的匹配值 第六列CIGAR字符串如37M1D2M1I(M-匹配;D-删除;I-插入)第7列:read序列在参考序列上的名称 第8列read序列在参考序列的位置 第九列:估计片段的长度 第十列:reads序列 11:ASCII质量值 12:比对的的具体细节 AS:i 匹配的得分 XS:i第二好的匹配得分
17 samtools(比对产生的数据为sam或bam格式,需要samtools进行后续处理)
[if !supportLists]1. [endif]samtools能够进行sam与bam文件的格式转换,结果排序,覆盖度统计,变异检测等功能。
[if !supportLists]2. [endif]samtools是一类非常重要的软件,学生信必须掌握,可以从samtools官网网页上进行下载,作者以0.1.19版本进行展示(建议下载最新版本)
[if !supportLists]3. [endif]tar- xjvf samtools-0.1.19.tar.bz2^C(注意王老师更喜欢本地下载,然后解压缩安装)(听课思考我觉得开一门RNAseq的课先讲其所涉及内容的二级结构(它是谁,有什么用,为什么要用它)以及整个流程显得效果会更加好。---自身可以多思考进行整理下)
cd samtools-0.1.19./ (进入) ll(查看) le INSTALL (准备安装) make ^C(安装前进行变异)
如果报错缺乏相应zlip.的文件,则需要安装相应的zlip库
[if !supportLists]4. [endif]安装完成之后,目录中会有samtools文件,此外还会有bcftools文件目录example目录下有测试数据 misc/文件下有很多小工具,主要是用于文件格式转换等啥的
[if !supportLists]5. [endif]示例SAM转换为二进制的BAM(省内存以及有的软件要求如此) (多查看help文档)
samtools view -bS test/all.sam -o all.bam (转换 -o是输出文件) samtools sort(排序,通常按染色体位置进行排序)
为了提高比对效率,有时会将测序数据与每条染色体进行比对,比对之后会生成多个Sam格式的结果,这个时候就能使用merge选项来进行合并; depth是用来进行覆盖文件深度的计算,必须是排序后的结果 samtools tview (能够以文本的选项进行查看,但要求先进行排序,然后还需要先建立一个索引samtools index ref.fna,最后samtools tview后面接排序好的bam文件即可查看)samtools mphileup (内含多种参数,特别注意SNP/INDEL参数的使用,会将每个位点的比对细节信息进行整理,一般会配合bcftools进行检测) 如何使用samtools进行结构变异的检测 (了解samtools的功能与参数可以通过help文档)
18 tophat比对工具(一)
1.RNAseq中必须掌握的工具,可以将RNAseq数据进行快速剪接映射的程序,它使用了超快的高通量短序列比对用法,将RNAseq比对到的reads比对到参考基因组上,然后分析映射结果来鉴定外显子鉴定时的剪接点。tophat与Bowtie均属于马里兰大学同一作者开发的。
Tophat需要首先使用Bowtie来进行没有切分reads的比对,之后将没有比对上的reads进行spliced切割的方法进行比对,这些没有比对上的reads有些是因为来自不同的外显子,发生了可变剪切;利用Bowtie无法比对上,所以必须使用tophat才能够进行比对
作者建议下载编译好的版本,解压缩之后就能够使用了。
[if !supportLists]3. [endif]tophat使用源码编译会稍微复杂一些,需要安装bowtie1,bowtie2,samtools等,如果不需要开源码,只使用tophat工具,建议直接下载编译好的版本
(注tophat需要调用bowtie等进行比对,所以用tophat必须存在bowtie,这就是所谓的依赖关系)
[if !supportLists]4. [endif]作者下载了最新版本软件进行安装(可以将相应软件存放到bin目录下,也可以将其放到自身建立的文件夹下,但要将这个目录写到自身的fastrc文件中,添加到path路径中):
(1 tophat使用与bowtie类似, 注意它的建立索引是以bowtie建立索引,tophat1对应bowtie1,tophat2对应bowtie2
(2tophat常用参数介绍 -o输出,内含各种参数,按序输入 -G(要输入GTF文件,若设置了该参数,tophat则先提取转录组序列,然后从bowtie2将reads比对到提取的转录组数据中。所以不能比对上的reads再比对到Genome,比对到的reads再打断,再融合相应的junction进行输出-----不了解基因融合检测)文件最好使用GTF文件。--solexxa -quals(使用solexa格式的文件合适,也就是solid平台产生对应的Phread64,但是目前多用Phread33),一般为提高比对效率,会用多线程进行处理。
网友评论