2021/03/02
RNA Sequencing in B-Cell Lymphomas
高通量mRNA测序(RNA-seq)提供了转录组的定性和定量评估。利用互补的 cDNA 产生数以百万计的短reads,与参考基因组对齐,对转录本进行全面的表征。
一、Illumina NextSeq or MiSeq platforms执行mRNA测序的协议
二、测序数据质量指标
1、样本质量控制
2、文库质量控制
准确地量化cDNA文库:qPCR
3、RNA-Seq数据质量控制与评估(Illumina software tools)
三、用于序列对齐的生物信息学管道
1、直接比对到参考基因组或转录本
挑战:跨越内含子-外显子边界的reads(a major challenge is the alignment of RNA-Seq reads that span across intron-exon boundaries)
Tool:STAR2, a gapped aligner, 可以有效的分割在内含子-外显子交界处的reads ----> Bam文件 (Integrated Genomics Viewer (IGV) 可视化)
2、重新组装随后比对
四、数字基因表达
Digital gene expression (DGE) analysis:(特别是表达水平高/低的转录本)提供了更广泛的动态范围,提供了更好的分辨率,增强了fold change(差异倍数,由FPKM估计) 的测定。
1、规范给定研究中的样本集,使数据相互比较(to effectively normalize the sample set within a given study to make the data cross-comparable)
FPKM(避免了paired-end reads的冗余计数)/ RPKM
HTseq-count package:可直接用于 STAR2 BAM file 的 FPKM 计算
DESeq2:估计 dispersion and fold change -----> 不同表达基因的基因列表 ---->(pathway enrichment analysis / gene ontology analysis): GSEA tool
2、进一步分析DGE表达谱( by Cluster software),可视化 ---- > 制作热图( by TreeView)
五、基因融合的检测(fusion gene)
检测方法:检测来自基因组两个不同位置的序列组成的嵌合reads或者reads pairs的融合事件
artifacts(阴影):太短不能比对到基因组(位置不唯一),比对到重复区域,映射到基因组同源性较高的区域,文库准备时出现的缺陷。
Tool:FusionCatcher is a gene fusion detection software that utilizes FASTQ files to produce gene fusion models including an assembled junction gene.
感兴趣融合基因的重点分析:BLAST search 手动确认已识别的融合事件
六、可变剪接发现和可视化(IGV)
alternative splicing (AS)两个可分析的子类:已知转录异构体差异基因的表达,检测新的转录本和已知亚型的结构畸变。因为区分多个转录本共有的reads的困难,以及使用短reads检测large structural alterations的能力的限制,使得AS的数据挖掘成为一个很大的挑战。
Tool: Cufflinks,利用FASTQ 文件产生FPKM基于异构体水平和转录本结构的研究结果,作为一般特征格式(GTF)文件(as a general feature format (GTF) file)。
七、遗传变异的描述和注释
Schematic workflflow of RNA-Seq pipelineRNA-seq方法导致的假阳性(false positives)水平更高。
癌症生物学的重点在于具有激活或灭活基因功能潜能的非SNP突变的确定。根据基因组坐标确定与SNP相对应的SNV,使用注释数据库(ANNOVAR or SnpEff)注释非同义SNV。
八、新免疫球蛋白基因装配
大多数B细胞非霍奇金淋巴瘤(non-Hodgkin lymphomas,NHL)表达B细胞受体(B-cell receptor,BCR),BCR是由两个相同的重链和两个相同的轻链免疫球蛋白(Ig)多肽组成的膜结合抗体,非共价地与信号元件CD79A和CD79B相结合。免疫球蛋白由可变(V)区和恒定(C)区组成,重链V区由三个(V、D和J)基因片段组成,而轻链由两个基因片段(V和J)组成)。在B细胞的发育过程中,这些基因片段通过体细胞DNA重组被组装来编码一个有功能的Ig。Ig基因片段装配产生非种系编码的免疫球蛋白分子,在大多数的成熟B细胞中强烈表达。大多数B细胞NHL表达独特的Ig重链和Ig轻链分子,允许在80%-90%的NHL中重新组装、映射和注释这些转录本。
网友评论