基于二代测序的RNA癌症研究方法
-
基于DNA层面的癌症研究:一本字典
-
基于RNA的癌症研究:从字典种挑取写一篇日记
-
RNA特点:
时空特异性:需要控制变量对照组
协同作用,形式多样:表达量高低/可变剪接/单碱基突变/融合基因,mRNA/lncRNA/miRNA/ceRNA...
可控可逆,“温和”调节:治疗前后,短期发展进程 -
在设置对照组应尽量保证无环境或其他因素的干扰:如取同患者肿瘤与其癌旁组织;药物处理时选择同窝小鼠
-
重复性设置,排除随机波动
-
基因定量:FPKM/RPKM/TPM
定量方法
比对到参考转录组:RSEM,eXpress
比对到参考基因组:cutdiff/cutffquant,HTseq
不需比对(mapping free):Sailfish,Kallisto,速度快 -
差异表达:foldchange,pvalue
DESeq2等
不够生物重复样本,NOISeq
一般数目控制在百级别 -
功能数据库:GO/KEGG(适合genelist)
-
疾病相关数据库:OMIM/PharmGKB/GeneCards/COSMIC(适合单基因检索)
-
可变剪接:转录后调控形式(一个基因转录后选择不同外显子区域进行连接组合,形成不同的转录本亚型,并翻译成蛋白),哺乳动物尤为常见,人95%的多外显子基因都可能存在
image.png
可变剪接影响:蛋白功能/活性/作用位置
癌症研究中,可变剪接结果不易理解和验证,不建议做结构研究(适合三代),因此优先级靠后 -
可变剪接研究方法
基于转录本亚型定量:同一基因不同可变剪接亚型的比例,Cutffdiff/rSeqDiff/RSEM
基于单个可变剪接事件(更常见,研究是否发生可变剪接现象):外显子跳跃,内含子保留等单个事件,rMATS/DiffSplice -
用转录组数据call SNP
优势:更容易发现与功能相关的SNP
挑战:基因表达丰度不同,覆盖度极不均匀;可变剪接的存在给外显子边缘SNP鉴定带来困难;RNA编辑干扰SNP鉴定
流程:clean reads——HISAT比对——GATK call SNP——SNP过滤 -
融合基因
癌症中特异的存在,因基因组上的倒位、易位、插入、缺失等大型结构变异造成。原本在染色体上距离较远,或者不在同一染色体上的基因距离接近,并一同转录形成融合转录本的现象。
变异罕见,一般只出现在癌症/肿瘤组织中,是一种理想的biomarker。
癌症中的融合基因:BCR-Abl(22chr——9Chr),Imatinib。白血病患者biomarker和药靶
image.png
融合基因的鉴定结果(少且易读):哪些基因进行了融合,融合位置,reads支持数。易验证(设计PCR引物测序)
基于长读长测序的转录本结构研究
- 转录本长度一般1k-5k,二代平台(100-150bp)覆盖不了整条。基于短读长RNA-seq组装产生大量的嵌合体
- PacBIo读长10-40k,更利于研究可变剪接和转录本结构变异
- 基于长读长的融合基因研究
二代测序只能确定有融合事件发生,获得融合位置一小段区域,三代可获取完整融合转录本序列和融合亚型
单细胞RNA-seq的癌症应用
- 常规RNA:组织——组织匀浆,RNA提取(平均化异质性)——测序
- 低通量,高深度单细胞技术:组织——挑选单细胞(流式细胞仪等)——单管单细胞(SMART-seq2),有偏的人为挑选,每个细胞单独建库,高深度,每个细胞能鉴定1-1.2万基因
- 高通量,低深度单细胞技术:组织——海量单细胞文库(基于微流控系统,10X Genomics/MGI DNBelab C4/BioRad),一次捕获1000-10000个细胞,每个细胞鉴定300-3000个基因,无偏
- 单管单细胞适合个体研究,针对同质性群体;高通量单细胞适合群体研究,针对异质性群体
- 高通量单细胞:细胞分群——marker gene(只在这类细胞中表达/高表达)
- 空间单细胞转录组:多一维位置信息,如针对肿瘤位置相关的研究,皮肤癌/实体瘤,尚不成熟
肿瘤基因组临床应用专题:
【1】 肿瘤医学研究前言进展
【2】肿瘤基因检测相关技术原理
【3】肿瘤基因组数据分析方法概述
【4】肿瘤转录组测序分析流程及相关软件
【5】肿瘤DNA甲基化数据分析原理及流程
【6】肿瘤胚系突变遗传分析及数据库使用
【7】基于NGS检测体系变异解读和数据库介绍
【8】肿瘤临床遗传咨询及案例分析
网友评论