全长转录组 | ONT Direct RNA测序 (DRS) 技

作者: 三代测序说 | 来源:发表于2024-08-07 07:44 被阅读0次

新生RNA测序数据质量评估——PEPPRO
NGS二代测序技术与转化医学研究--2.RNA-seq部分
2019-12-09 Day8 学习-转录组与长非编码RNA测序
Day1-君君
单细胞测序技术
10x Genomics单细胞全长转录组测序
ONT全长转录组测序分析(三)-pipline背景
单细胞基础理论
RNA-seq的十年（下）
RNA sequencing: the teenage year

"牛津纳米孔技术公司（Oxford Nanopore Technologies，ONT）开发的第三代测序平台是目前唯一能够直接对天然RNA链进行测序的技术平台。ONT - Direct RNA Sequecing (DRS，直接RNA测序）技术能够对天然全长RNA链进行测序，同时能够保留并检测RNA碱基的修饰信息，并能够相对准确地估算 poly(A) 尾的长度，从而还原RNA的真实特征。"

图1. Direct RNA Sequencing | Nature Method封面技术（2018年1月）

在过去的十年中，RNA测序（RNA-seq）逐渐成为了全转录组水平分析差异基因表达和研究mRNA差异剪接的不可或缺的工具。随着第二代高通量测序技术（也称Next-Generation Sequencing，NGS）的发展和成本的降低，RNA-seq的应用领域也在不断扩大。现在，RNA-seq已经能够应用于很多RNA层面的研究，包括单细胞基因表达（single cell）、RNA翻译组（translatome）和 RNA结构组（structurome）等。近几年兴起的（令人激动的）新应用也将RNA-seq带入了三维空间，如空间转录组学（spatialomics）。
通过结合日益成熟的第三代长读长测序（long-read）和 直接RNA测序（Direct RNA-seq）技术（图1），以及更先进的计算分析工具，RNA-seq将帮助科研人员对RNA生物学有更全面、更精细的理解: 从转录本在何时何地转录到RNA折叠以及分子互作发挥功能等^1,2。

近年来，随着二代测序技术的发展，传统的转录组测序（RNA-seq）已经成为研究基因表达调控的主要技术手段。很多物种的基因调控非常多样和复杂，绝大多数真核生物基因不符合“一基因一转录本”的模式，这些基因往往存在多种剪切形式。通过二代测序，可以很准确地进行基因的表达及定量的研究，但是由于测序读长的限制，不能精确的得到全长转录本的信息，以至于无法深入到转录本水平进行研究（图1）。因此，基于三代长读长测序平台的全长转录组成为新的研究热潮。

全长转录组（Full-length transcriptome）是基于 PacBio（Pacific Biosciences） 或 ONT（Oxford Nanopore Technologies） 三代测序平台，富集mRNA后无需打断拼接，直接获得包含5’UTR、3’UTR、polyA尾的mRNA全长序列及完整结构信息，从而准确分析有参考基因组物种可变剪接及融合基因等结构信息，克服无参考基因组物种转录本拼接较短、信息不完整的难题（图2）。

图2. 短读长、长度长和直接RNA测序技术比较（RNA sequencing: the teenage years）

在全长转录组基础之上，ONT-三代测序平台的直接RNA测序（Direct RNA-seq），相对于传统的 反转录cDNA - PCR扩增（二代和三代RNA-seq测序都有相应的建库方案）流程，其能够保留并检测天然RNA碱基修饰信息，还原真实RNA特征，也省去了传统 RNA m6A甲基化修饰繁琐的实验检测步骤，如 MeRIP-seq/m6A-seq和m6A-SEAL-seq等。

一、RNA（mRNA）测序技术发展

超过95%的已发表的RNA-seq数据（Short Read Archive，SRA数据库）都是由以Illumina平台为代表的短读长（short-read）第二代测序技术平台生成的¹。由于短读长cDNA测序方案的几乎涵盖了所有公开可用的mRNA-seq数据，这个技术作为RNA-seq的基准，这一部分也主要围绕mRNA的测序为主要内容。长读长cDNA测序和最近的直接RNA测序方法将很快对二代测序平台主导地位构成挑战，因为寻求能够提高转录本/异构体水平上的分辨率和想要获得RNA碱基修饰的需求在不断涌现。

1. 短读长（short-read）cDNA测序

短读长（short-read）二代测序是转录组范围基因检测和表达定量最常见方式，其主要原因是它可以获得全面的，高质量的全转录组表达数据。基于Illumina测序平台的转录组表达测序实验（RNA-seq）和分析包含以下核心步骤（以真核mRNA为例）：RNA的提取，mRNA的富集、cDNA的合成，接头连接，PCR扩增，上机测序和后期的数据分析（图3）。

由于二代测序读长限制，需要mRNA片段化和文库纯化时磁珠筛选300-500bp的片段，所以最后获得的cDNA片段都在300-500bp左右（双端150bp和双端250bp建库）。对于常规有参基因表达定量，每个样本平均测到2000万到3000万条序列（20-30 milion reads）就已经足够了，等同于双端150bp （PE150）测序大约需要6G-9G （Gbase，Gb碱基数）的数据量；例如，150bp X 2端 X 20M reads = 6000 M = 6G，这里的6G数据量跟你看到的fastq.gz或者fastq文件大小（gigabyte，GB）还不是一回事，实际文件大小和压缩比率还有关系；拿到原始序列的fastq.gz数据后，就可以对每个基因或转录本进行表达定量，最后再用统计学方法计算统计组间差异表达的基因。

短读长二代测序RNA-seq结果容错率相对较高（robust），对其多次测试比较发现，其平台内和平台间的相关性都很好。然而在样本准备和计算分析阶段的某些步骤中也会引入误差和缺陷，这些局限性会影响特定生物问题的解释，比如正确地识别和定量一个基因的多个转录异构体（isoform），尤其对于转录本较长或者多变的生物，如人的转录组中，50%的转录本长度大于2500 bp，转录本长度范围在186 bp~109 kb之间。从根本上解决短读长-cDNA测序固有局限性的最有效的方法还是通过长度长cDNA测序和直接RNA测序的方法。

图3. Illumina平台RNA-seq建库和分析流程，图片来自于Sudhagar, A.et.al

2. 长度长（long-read）cDNA 测序

尽管以Illumina为代表的短读长（short-read）二代测序是目前主流的RNA-seq平台，但 PacBio 和 ONT 三代测序平台能对反转录为cDNA后的全长mRNA进行单分子实时测序。因为没有短序列的拼接组装步骤，进而克服了短读长二代测序的一些问题 -- 例如序列比对的不确定性，无法直接还原较长的转录本的原貌 -- 有助于更好地捕捉转录异构体（isoform）的多样性。

PacBio Iso-Seq，基于PacBio三代测序平台的mRNA Iso-Seq建库测序流程能够检测长达15 kb的全长转录本序列，有助于发现大量先前未注释到的转录本，并可通过全长序列确认早期基于跨物种同源序列的基因预测结果。在标准的Iso-Seq实验中，模板置换（template-switching）逆转录酶可以将高质量mRNA转化为用来测序的全长cDNA，然后将得到的cDNA进行PCR扩增，并构建PacBio SMRT（单分子实时 single-molecule, real-time，SMRT）测序文库。同时PacBio测序对模板量需求很大，要求进行大体积PCR，需要优化反应体系降低过度扩增的影响。PCR末端修复和PacBio SMRT哑铃状测序接头连接后，就可以上机测序了（图4）。一张SMRT cell 8M芯片能产生大约 4-5M 的序列（reads）。

图4. PacBio Iso-Seq建库和分析流程，图片来源PacBio

ONT cDNA-PCR，基于ONT三代测序平台的cDNA-PCR建库测序流程也可以检测全长转录本，而且适用于单细胞全长转录组测序。同样使用模板置换反转录，PCR扩增来制备全长转录本文库（图5）。在加接头制备测序文库之前，可以自己决定是否进行PCR扩增，又可细分为PCR-cDNA和直接cDNA（双链）测序。PCR扩增的cDNA文库的测序产出（测序获得的reads数）更高，适用于样本中RNA含量较少的情况。一般来说 6G（Gbase，Gb碱基数）数据量大约能获得4-5百万（million，M）条序列（reads）。

图5. ONT-cDNA建库流程，图片来源Xiong, Q.et.al

3. 长度长（long-read）直接RNA测序

2018年初，ONT-Direct RNA Sequencing技术登上了Nature Method的封面（图1）。直到这两年，此项技术整体趋向成熟，包括碱基准确度的提升，价格的下降和修饰信号识别算法的提升。直接RNA测序建库过程中没有第二cDNA链的合成、PCR扩增这些过程，不仅避免了这些操作带来的偏好性和错误，并且保留了RNA上的表观修饰信息。

首先，带有oligo(dT)末端的引物与mRNA的PolyA尾巴退火连接；后续是一个可选的反转录操作，用于提高测序通量和RNA单链的稳定性（一般推荐做）；最后添加连有分子马达的测序接头用于后续测序。文库加载入MinION或PromethION芯片即可启动3ʹpoly(A)尾巴向5ʹcap端的mRNA直接测序。虽然直接RNA测序的价格相比于传统RNA-seq高出不少且不支持混样，但是其能直接检测RNA碱基修饰的潜力有望在表观转录组领域促进更新的发现。

图6. ONT RNA-cDNA建库流程，图片来源于Grünberger, F. et.al

二、需要反转录和PCR扩增的RNAseq测序

对于二代测序平台（Illumina & 华大DNBSEQ），传统的RNA测序（如RNA-seq），无论是用 oligo（dT）引物 将 mRNA（真核生物）反转录 至 cDNA（complementary DNA，cDNA），再进行 cDNA 的片段化 （图7）；还是先将 mRNA 打断，再结合六碱基随机引物（Random Hexamers）反转录合成第一条 cDNA链随后合成第二条cDNA链（图7）， mRNA 都需要 反转录 成 cDNA，经过PCR扩增再进行测序。

图7.mRNA测序建库流程

对于三代测序平台（PacBio & ONT)，Iso-seq全长RNA测序试剂盒（Iso-Seq library preparation using SMRTbell prep kit 3.0，PacBio）和 cDNA-PCR测序试剂盒（cDNA-PCR Sequencing Kit V14，ONT）的原理基本类似，先用oligo（dT）引物反转录成全长mRNA-cDNA，再通过模板转换引物（Template Switching Oligos ，TSO)，加入5'端PCR扩增引物，最后通过PCR对全长转录组进行扩增，然后建库测序 (图8，图9）。

图8. Iso-Seq library preparation using SMRTbell prep kit 3.0建库流程

图9. cDNA-PCR Sequencing Kit V14建库流程

由于测序平台原理的限制（Illumia的边合成边测序和PacBio依赖DNA聚合酶的单分子实时测序都需要DNA双链），RNA测序都要通过RT-PCR构建cDNA文库，这个流程不仅过程繁琐，还可能引入偏差和错误（如PCR扩增），从而影响最终结果的准确性。此外，这些平台技术都无法用于碱基修饰、mRNA的5'-甲基鸟苷帽以及3'-腺苷尾的研究。

三、ONT - 直接RNA测序（Direct RNA-seq，DRS）

正如上面展示的，经典的RNA测序流程，通常需要将RNA先反转录为cDNA，经过PCR扩增后再进行建库测序。而直接RNA测序技术（Direct RNA Sequencing，简称DRS）只需将mRNA单链反转录为RNA - cDNA双链后就能直接对其测序，整个过程无 RNA/cDNA 双链转DNA双链和PCR扩增过程，直接获得mRNA的序列及其碱基修饰信息 （图6）。

由于牛津纳米孔科技（Oxford Nanopore Technologies，ONT）三代测序平台的技术原理 ---- RNA/cDNA双链能直接在马达蛋白（Motor Protein）的牵引下与镶嵌在合成聚合物膜上的纳米孔蛋白（Nanopore Protein）结合并解螺旋；在膜两侧电压差的作用下，RNA链以一定的速率通过纳米孔通道蛋白。由于RNA链上不同碱基化学性质存在差异，所以当单个碱基通过纳米孔通道时，会引起不同电学信号的变化。根据电流的大小及电流大小的变化情况，通过 “ 递归神经网络（Recurrent Neural Network）”的复杂算法对碱基进行判读，即可计算获得相应碱基的类型，同时获得碱基修饰信息（图1，图10） ---- 使得ONT三代测序平台可以对全长mRNA序列进行直接测序（Direct RNA sequencing）。

图10. ONT测序平台原理，图来自 Wang, Y.et.al

1. ONT - 直接RNA测序的优势

直接RNA测序无需PCR，没有测序GC偏好性

由于PCR过程具有GC偏好性（CG bias），对GC含量过高或过低的序列不容易扩增，所以短读长测序在建库和测序过程中都会引入GC偏好，降低了定量分析的准确性。使用ONT测序技术（直接 cDNA & 直接 RNA），无需PCR扩增，可以提供无偏倚(bias)、全长、链特异性的RNA序列。

准确检测转录本 poly(A) 尾长度

转录本 poly(A) 尾被认为在转录后调控中起到重要作用，包括mRNA的稳定性和翻译效率。poly(A) 尾长度可达数百个核苷酸，使用短读长测序的数据很难进行测量。ONT-直接RNA测序获得的全长转录本包含 poly(A) 尾信息，利用算法工具计算出 poly(A) 尾的长度，估算每个读长序列的 poly(A) 尾长，甚至能够发现异构体 (isoform) 间 poly(A) 尾的区别。

直接RNA测序鉴定 RNA 碱基修饰信息

反转录cDNA - PCR扩增的建库方式需要 PCR扩增，从而丢失了 RNA 分子中的碱基修饰信息。直接RNA测序不需要扩增或链合成，这意味着在测序过程中，修饰碱基直接穿过纳米孔，在原始信号中产生与未发生修饰的碱基不同的电流特征。通过特定的软件算法对电流特征进行识别，即可鉴定碱基修饰信息。

2. ONT - 直接RNA测序推荐用户

对天然RNA特征感兴趣，想探索RNA碱基修饰信息。
想要去除反转录或PCR的偏倚，即偏好性和错配率。
对mRNA两端非编码调控区域感兴趣，如5',3' UTR 和 poly(A)尾。
样本中存在比较难反转录的转录本。

3. ONT - 直接RNA测序建库流程

所用的试剂盒为Direct RNA Sequencing Kit (SQK-RNA004)，首先准备 poly(A) 富集的mRNA (300ng/8ul) 或者总RNA(1ug/8ul) ，通过 poly(T) 引物反转录合成cDNA链（稳定mRNA），为RNA-cDNA加上测序接头，最后在MinION或PromethION芯片上进行测序（图11），建库总用时大约为2小时15分钟。互补cDNA链不会被测序，只是为了提升RNA的稳定性和测序质量。

图11. ONT - 直接RNA测序建库流程

四、ONT - 直接RNA测序数据分析

ONT Direct RNA测序的常规分析流程（人和mRNA为例）包括：
（1）原始数据的质控
（2）参考转录组比对（将聚类得到全长转录本和参考注释进行比对并分类）
（3）基因功能及转录本结构注释
（4）差异基因/转录异构体（isoform）定量&差异表达分析
（5）差异可变剪切（Alternative Splice）分析
（6）KEGG信号通路富集、蛋白互作分析
（7）RNA碱基修饰检测
（8）Poly(A) 尾长度估算/可变多聚腺苷化（APA）分析

前六个分析和全长转录组（cDNA/PCR建库）分析流程一致，具体流程和软件使用可以参考 Wang, Yunhao, et al. "Nanopore sequencing technology, bioinformatics and applications." Nature Biotechnology. (2021)。这里重点总结一下直接RNA测序所特有的 碱基修饰（6mA) 和 可变多聚腺苷化（APA） 分析。

1. ONT - 直接RNA测序（Direct RNA Sequencing，DRS）m6A的数据分析工具

对于快速了解现有的基于ONT DRS平台实现m6A检测的算法工具和流程，一篇深入的评估测评文章无疑是最佳起点。这里推荐由 骆观正 和张璋教授合著的论文，该论文于2023年4月5日发表在《自然通讯》（Nature Communications）上，题为"Systematic comparison of tools used for m6A mapping from nanopore direct RNA sequencing"。这篇文章对现有常用的检测和量化RNA m6A修饰的算法工具进行了全面的测评和比较研究（图12）。通过此文章，我们可以了解主流的分析软件和流程都有哪些，这里暂不对这些软件的使用方法做详细的描述，给自己挖个坑，后面对于每个常用软件出一期使用教程。

图12. 利用ONT DRS平台实现m6A检测的工具、流程以及原理分类。Zhong, Z.D et.al

基于鉴定修饰核苷酸所使用的策略不同，现有的工具大致可分为两大类（图12）。第一类，依赖于检测识别核苷酸通过纳米孔时产生的不同电流扰动信号，将连续的电流信号切分成小的 "events"，进行碱基的识别；利用两个比较流行的算法之一，Nanopolish-eventalign 或 Tombo-resquiggle，将每一个核苷酸和参考序列进行比对；对于每一个核苷酸，电流信号，例如中位数，平均值，方差和滞留时间等被提取出来，作为以三个不同分类方法为基础软件的输入文件：统计检验（如 Tombo），机器学习（如 MINES， Nanom6A和m6Anet）和聚类（如Nanocompore，xPore）。第二类，利用由于修饰存在而产生的碱基识别扰动（"errors"），这些碱基识别时的 "errors"可能代表错配，插入，缺失或不同的碱基质量，结合比对结果，这些信息被搜集和分类。在这些扰动中识别修饰碱基，Epinano软件使用预先训练的机器学习模型，其它的软件通过利用内部模型或对照样本进行统计学检验来识别修饰碱基，如DiffErr，DRUMMER和ELIGOS。

- Dorado (ONT官方）

Dorado是一款高性能、易于使用、开源的牛津纳米孔测序数据碱基识别（basecaller）的软件，也是ONT官方是最新推荐使用的碱基识别软件。其利用官方开发的Remora训练的核苷酸修饰模型进行RNA修饰碱基的识别。对于修饰碱基后续处理分析可使用官方推荐的modkit。

- Tombo

Tombo是一套工具，主要用于从纳米孔测序数据中鉴定修饰的核苷酸，可用于RNA修饰碱基的识别和可视化。Tombo 还提供了用于分析和可视化原始纳米孔信号的工具。此为早期ONT官方推荐的软件，最后一个版本停留在2020年2月20日，现在已经停止更新维护，被官方新开发的Remora所替代。Stoiber, M.H. et al. De novo Identification of DNA Modifications Enabled by Genome-Guided Nanopore Signal Processing. bioRxiv (2016).

- MINES

MINES - (m)6A (I)dentification Using (N)anopor(E) (S)equencing- 文章由来自UC San Diego的 Gene Yao 教授团队（图13）于2020年1月发表在RNA杂志上，题目为Direct RNA sequencing enables m6A detection in endogenous transcript isoforms at base-specific resolution。从github上的日志来看，已经有4-5年没有更新了，而且运行MINES之前需要运行Tombo(v1.4)。

图13 . Yao Lab团队

- Nanom6A

Nanom6A，是一款基于XGBoost（Extreme Gradient Boosting）模型，直接利用m6A周围的原始信号，在单核苷酸水平上对每一个转录本进行m6A位点的鉴别。此流程由福建农林大学海峡联合研究院林学中心的 顾连峰 教授课题组于2021年1月7日，在Genome Biology上发表： Quantitative profiling of N6-methyladenosine at single-base resolution in stem-differentiating xylem of Populus trichocarpa using Nanopore direct RNA sequencing。该研究提供了一种可在单转录本单碱基水平的分辨率定量m6A修饰的方法，为在动植物中的m6A修饰研究提供了一种极为有效的检测手段。默认模型只适用于 MinION 或 GridION机型的 R9.4.1 芯片。

- m6Anet

m6anet ，利用多实例学习（Multiple Instance Learning）框架来从纳米孔直接RNA测序数据中检测 m6A 修饰。新加坡 A-STAR 基因组研究所 (GIS) / 新加坡国立大学 Jonathan Goke （图14）与 Alexandre Thiery 研究组合作于2022年11月10日，在Nature Methods上发表了题目为Detection of m6A from direct RNA sequencing using a multiple instance learning framework的研究论文。该研究提出了一种基于神经网络检测 RNA 修饰的新方法，m6Anet 。m6Anet 可以从单次直接 RNA 测序数据中获得转录组范围内的 m6A 识别和量化信息。最新的版本为v.2.1.0，最近更新于2023年07月23号。

图14. Jonathan Goke团队

- Nanocompore

Nanocompore用于比较来自两个不同实验组的ONT-直接RNA测序数据集，来检测差异的RNA修饰，建议每组有两个重复样本。英国剑桥大学 Tony Kouzarides 教授团队于2021年12月10日，在Nature Communications上发表了RNA modifications detection by comparative Nanopore direct RNA sequencing的研究。团队开发并验证了Nanocompore软件，一个可以从Nanopore direct RNA-seq测序数据中识别碱基修饰的分析框架（图15）。将感兴趣的RNA和未做处理的对照样本进行比较，不需要训练集，并且允许重复样本数据。Nanocompore**在体外可以准确地检测到不同的RNA修饰，也可以用于酵母和人类RNA中m6A修饰图谱，以及靶向非编码RNA的鉴别。

图15. Nanocompore分析流程

- xPore

xPore是一款基于Python语言利用ONT-直接RNA测序数据对RNA修饰进行鉴定和定量。新加坡 A-STAR 基因组研究所（GIS）/ 新加坡国立大学 Jonathan Goke 研究组和深圳湾实验室分子生理学研究所 吴炜祥（W.S. Sho Goh） 课题组于2021年7月19日，在Nature Biotechnology杂志上发表了题为Identification of differential RNA modifications from nanopore direct RNA sequencing with xPore的研究，开发了基于Nanopore direct RNA-seq的RNA修饰差异化分析计算方法xPore。xPore可以实现单碱基水平（single-base resolution ）的甲基化位点鉴定、甲基化水平计算，在没有配对未修饰样品对照组的情况下进行样品间的甲基化差异分析，xPore为临床样本、原代培养组织等缺乏相应对照组的甲基化差异分析提供了技术支持。最新的版本为v.2.1，更新于2021年10月09号。

- Epinano

Epinano是一款利用ONT-直接RNA测序数据检测RNA修饰的软件。西班牙巴塞罗那科学研究院（Barcelona Institute of Science and Technology）的 Eva Maria Novoa 团队（图15）于2019年9月9号，在Nature Communications上发表了题目为Accurate detection of m6A RNA modifications in native RNA sequences的研究, 开发了利用Nanopore direct RNA-seq数据预测RNA中m6A修饰的算法，名为EpiNano，此算法基于系统误差和碱基质量下降等信息检测m6A修饰。最新的版本为v.1.2.4，更新于2024年4月27号。

图15：Eva Maria Novoa团队

- DiffErr

DiffErr是由英国邓迪大学（University of Dundee）Geoff Barton 团队开发的算法。算法基于Nanopore DRS测序的错误，需要低碱基修饰的对照。输入数据需要测序样本使用同一芯片，同一建库试剂盒，同一时间完成测序，并且使用相同软件算法来call碱基，否则就会有大量假阳性。软件最后一次更新停留在2020年11月27号，对于不同批次的数据非常不友好。

- DRUMMER

DRUMMER旨在通过比较ONT-直接RNA测序数据集中的碱基鉴别错误（basecall errors），识别不同转录本异构体上的RNA修饰，达到核苷酸级别的分辨率。美国纽约大学 Daniel P Depledge 团队于2022年4月15号，在Bioinformatics上发表了题目为DRUMMER—rapid detection of RNA modifications through comparative nanopore sequencing的研究，开发了DRUMMER (Detection of Ribonucleic acid Modifications Manifested in Error Rates) 算法软件。算法基于一系列统计学检验和信号背景噪音校正来鉴定修饰的核酸碱基。软件自发表以来没有进行更新。

- ELIGOS

ELIGOS 是一款利用天然RNA和参考序列之间特定碱基上的错误（error at specific base，ESB）差异，来识别RNA序列上修饰位点而开发的软件。美国阿肯色大学医学院（University of Arkansas for Medical Sciences）的 Intawat Nookaew 教授团队和芝加哥大学的何川教授团队于2021年1月25号，在Necleic Acids Research上发表了题目为Decoding the epitranscriptional landscape from native RNA sequences的研究，开发了ELIGOS（Epitranscriptional/(Epigenomical) Landscape Inferring from Glitches of ONT Signals）。ELIGOS能够在大肠杆菌、酵母和人类细胞中准确预测已知类别的RNA甲基化位点。

- 其它分析软件

在 Jonathan Goke 实验室github主页的 awesome-nanopore 里有一个关于ONT数据分析软件的列表，里面总结了相应方向数据分析推荐的软件。其中也推荐了RNA修饰方向的一系列相关软件（图16）。大家也可以自行查看参考综述里没提及的分析软件，例如nanoDoc2。

图16. RNA修饰方向分析软件推荐

2、RNA可变多聚腺苷酸化（alternative polyadenylation, APA）原理及分析工具

mRNA在加工过程中的精细调控对基因的表达具有重要影响，也是产生基因功能多样性的重要机制。真核生物mRNA3' 端都由一个约200个腺苷的 ploy(A) 尾组成。前体mRNA（pre-mRNA）在成熟过程中，环境或生理的细微变化能够导致在mRNA的不同剪切位点上进行选择性的剪切和多聚腺苷酸化（cleavage and polyadenylation, C/P），可变剪切和多聚腺苷酸化的发生需要多聚腺苷酸化信号（polyadenylation signal，PAS，典型序列AAUAAA）的存在。可变多聚腺苷化（Alternative polyadenylation， APA）则是指具有多个 PAS 的序列，在其mRNA的3' 端成熟过程中，由于选择不同的PAS，导致产生出多个3' UTR长度和序列组成不同的转录异构体 （图17）。

一般可变多聚腺苷化（APA），可以分为四种类型：

3' UTR APA：3' UTR区内有两个或者两个以上的PAS，如 Proximal PAS（近端）和 Distal PAS（远端），产生具有不同长度的3' UTR的异构体（isoform），并不影响蛋白编码功能，是最常见的APA形式（图17 A）。
可变末端外显子APA 或称剪切APA：产生末端外显子和3'UTR不同的异构体（isoform），影响编码蛋白C端氨基酸的序列（图17 B）。
内含子APA：内含子区域存在PAS，延长了某个内部外显子并使之成为末端外显子（图17 C）。
内部外显子APA：在编码区域内部发生剪切和多聚腺苷酸化（图17 D）。

图17. 可变多聚腺苷酸化，Zhang, Y er.al.

通过在RNA 3' UTR区不同位置上添加polyA尾巴，可以选择性的调节3' UTR的长短。由于3' UTR区含有多种顺式调控元件，例如：miRNA或RNA结合蛋白（RBP）结合位点，因此，APA可以通过调节3' UTR区的长度，影响目标mRNA的稳定性，定位和翻译效率，最终导致它们具有不同的生物学功能；发生在编码区内部的APA可以影响蛋白质翻译序列，进而影响其生物学功能。

对于三代测序数据RNA可变多聚腺苷酸化分析工具，大家可以自行探索以下软件，如TAPAS，DaPars，NanoPrapi，LAPA，DeeReCT-APA，DeepPASTA等。因为本人不是做这个方向，如有不全或错误之处还请大家帮忙补充和更正。

对于估计polyA长度的软件：

- Dorado (ONT官方）

Dorado是一款高性能、易于使用、开源的牛津纳米孔测序数据碱基识别（basecaller）的软件，也是ONT官方是最新推荐使用的碱基识别软件。使用 --estimate-poly-a 命令选项即可开启预估poly(A)长度选项。

- tailfindr

tailfindr 是一款利用ONT reads来估算polyA尾长度的R包。

挪威卑尔根大学（University of Bergen）Eivind Valen 教授团队于2019年10月25号，在RNA上发表了题目为tailfindr: alignment-free poly(A) length measurement for Oxford Nanopore RNA and DNA sequencing的研究，开发了名为tailfindr的R包。 tailfindr可以直接从ONT原始的FAST5格式数据直接估计每条序列的 poly(A) 长度。

五、RNA表观遗传修饰类型以及功能

ONT - Direct RNA Sequecing (DRS，直接RNA测序）技术主要优势之一还是在于其能直接检测RNA上的表观遗传修饰。

之前大家围绕染色质上的 DNA 和 Protein 开始表观遗传学的研究，包括DNA 甲基化，染色质可及性，组蛋白修饰，3D 基因组等等 (图18)。传统经典的遗传学基本法则（Central dogma, 中心法则）中的RNA确"被大家忽略了"。这种尴尬的局面，在2011 年10月16号，由芝加哥大学何川教授团队率先打破。他们的研究 "N6-methyladenosine in nuclear RNA is a major substrate of the obesity-associated FTO" 发表在 Nature Chemical Biology上，首次证明 FTO（fat mass and obesity-associated protein）是RNA上m6A（N6-methyladenosine）修饰的去甲基化酶，揭示m6A的可逆化修饰，且说明了RNA 层面的修饰也参与了基因表达调控。m6A作为mRNA上最丰富的可逆修饰受到了极大地关注，并从此开启了RNA表观遗传学的浪潮，使 m6A 的研究重新热门起来。

“随着ONT direct RNA技术的发展与普及，将会极大推动RNA表观遗传学的研究”。

图18. DNA和Protein的表观遗传修饰， Laura Bonetta，Epigenomics: The new tool in studying complex diseases.

RNA表观遗传修饰是指发生在RNA碱基上的各种化学修饰，这些修饰通常不会改变基因的序列，但会影响其在细胞内的稳定性、结构、功能、剪接加工、转运定位、聚腺苷酸化（polyadenylation）、翻译等从而调控多种生物过程。在生物体内，RNA修饰是通过多种酶在转录后或共转录时引入的，RNA分子也可以从外部来源获得修饰，如环境或其它生物体。迄今为止，根据波兰华沙国际分子与细胞生物学研究所 (IIMCB) ，Janusz M. Bujnicki 教授团队（图19，图20）开发的RNA修饰数据库MODOMICS显示，在所有类型的RNA分子中已经确定了超过170种RNA修饰（从2006年更新至2023年）（Cappannini, A; Bujnicki, J. M.et.al)，编码RNA （mRNA）和非编码RNA（tRNA, rRNA, miRNA, lncRNA, circRNA, etc.）都可以被修饰（图21）。现在认为表观遗传修饰和遗传物质 DNA 一样，都是决定基因表达和个体表型的重要因素，与生物发育和疾病发生息息相关。

图19. Janusz M. Bujnicki教授

图20. Janusz M. Bujnicki教授团队

当前已知的RNA修饰之中，研究较多的RNA修饰如下（图21）：
① N6-甲基腺苷(N6-methyladenosine, m6A)
② 5-甲基胞嘧啶(5-methylcytosine, m5C)
③ N1-甲基腺苷(N1-methyladenosine, m1A)
④ N7-甲基鸟苷(N7-methylguanosine, m7G)
⑤ N4- 乙酰胞嘧啶 (N4-acetylcytosine, ac4C)
⑥ 假尿苷 (pseudouridine, Ψ)
⑦ 尿苷化(uridylation)
⑧ 腺苷到肌苷的RNA 编辑(adenosine-to-inosine (A-to-I) RNA editing)

图21. RNA修饰及类型分布，Cui, L et.al

N6-甲基腺嘌呤(m6A)，即腺苷酸氮碱基的6号位 N 发生甲基化，是mRNA中丰度最高的甲基化修饰形式，也是目前研究最为透彻的一种RNA修饰类型。其可以被甲基转移酶“写”、去甲基酶“擦除”及结合蛋白“读”。在第一个去甲基化酶 FTO 被发现后，在众多科学家的共同努力下，逐渐构建起了较为清晰的 m6A 修饰通路。这里包含三种核心调控因子：Writer（写），Eraser（擦除），Reader（读取），它们分别执行针对 m6A 的三种任务：加入修饰，擦除修饰，读取修饰（图22，参考知乎-白墨）。

加入修饰（Writer），主要由甲基化转移酶构成的复合物（Methyltransferase complex，MTC）介导产生，包括 METTL3、METTL14和 WTAP和 KIAA1429。
擦除修饰（Eraser），FTO 和 ALKHB5 等去甲基化酶构成，用于擦除甲基化基团。FTO蛋白全称Fat mass and obesity-associated protein，属于Alkb蛋白家族中的一员并且与肥胖相关，敲除后，m6A修饰水平显著上升。LKBH5是另一种重要的去甲基化酶，对细胞核中的mRNA进行去甲基化修饰。在细胞系中敲低ALKBH5后，mRNA上m6A修饰水平显著上升。
读取修饰（Reader），多种 Reader 蛋白会执行不同的生物学功能，常见的有：

YTHDF1 和 YTHDF3 通过与起始因子及核糖体互相作用促进蛋白质翻译
YTHDF2 导致 mRNA 的降解，而 YTHDF3 与 YTHDC2 有类似的功能
IGF2BP1/2/3 则对翻译的稳定性有促进作用
YTHDC1 与 mRNA 剪切及出核有关
eIF3 识别蛋白也会直接绑定到 mRNA 5'UTR 端的 m6A 位点参与翻译起始
HNRNPC 介导 mRNA 前体的选择性剪接
HNRNPA2B1 促进 pri-miRNA 加工为 pre-miRNA

图22. RNA m6A修饰调控

六、ONT - 直接RNA测序应用场景

Oxford Nanopore Technologies (ONT) 测序平台的直接RNA测序技术是一种能够直接测定RNA分子序列以及其表观遗传修饰的方法，不需要将RNA逆转录为cDNA。

这种技术除了常规的转录组分析应用，如：

全长转录本鉴定：
- 直接RNA测序能够测定完整的RNA分子，避免了传统测序方法中由于逆转录和片段化引入的偏差。这对于研究全长转录本结构、剪接变体和基因融合事件非常重要。
转录组分析：
- 可以用于生物样本的转录组分析，帮助识别和定量表达基因和转录本。这对于揭示差异表达基因（或转录本）和功能具有重要意义。
癌症研究：
- 能够识别癌症细胞中的异常转录事件和基因融合，对于理解癌症的分子机制、发现新的生物标志物和开发新的治疗策略具有重要应用。

其还有许多独特的应用场景和优势，包括以下几个方面：

病毒和病原体检测：
- 在病毒学研究中，直接RNA测序可以快速、准确地测定病毒RNA序列，有助于病毒株的鉴定、突变检测和流行病学研究。尤其适用于RNA病毒，如冠状病毒、流感病毒等。

探索病毒生命周期、变异监控、宿主-病毒互作以及病毒基因表达的复杂性方面。

合成生物学：
- 在合成生物学研究中，可以用于测定和验证人工合成的RNA分子，确保其序列和结构的准确性。
药物研发：
- 在药物研发过程中，直接RNA测序可以用于评估药物对基因表达和RNA修饰的影响，从而加速药物筛选和优化。

直接RNA测序技术的这些应用场景表明，它不仅在基础研究中具有重要价值，而且在临床诊断、公共卫生和生物技术产业中也具有广泛的应用前景。

参考文献：

Stark, R., Grzelak, M., & Hadfield, J. (2019). RNA sequencing: the teenage years. Nature Reviews Genetics.
Nature重磅综述 |关于RNA-seq，你想知道的都在这。生信宝典-陈同。
Wang, Y., Zhao, Y., Bollas, A., Wang, Y., & Au, K. F. (2021). Nanopore sequencing technology, bioinformatics and applications. Nature Biotechnology.
Nanopore直接RNA测序--希望组。
NGS mRNA建库完全攻略—从mRNA纯化到注意事项（翌圣生物）。
“Sudhagar, A.; Kumar, G.; El-Matbouli, M. （2018）Transcriptome Analysis Based on RNA-Seq in Understanding Pathogenic Mechanisms of Diseases and the Immune System of Fish: A Comprehensive Review. Int. J. Mol. Sci.
Grünberger, F., Knüppel, R., Jüttner, M., Fenk, M., Borst, A., Reichelt, R., ... & Grohmann, D. (2019). Nanopore-based native RNA sequencing provides insights into prokaryotic transcription, operon structures, rRNA maturation and modifications. bioRxiv.
Xiong, Q., Jiang, H., Liu, Z., Peng, J., Sun, J., Fang, L., ... & Lu, J. (2022). Untangling an AGS outbreak caused by the recombinant GII. 12 [P16] norovirus with nanopore sequencing. Frontiers in Cellular and Infection Microbiology.
一文读懂 RNA 表观修饰--知乎白墨。
Jia, G., Fu, Y. E., Zhao, X. U., Dai, Q., Zheng, G., Yang, Y., ... & He, C. (2011). N6-methyladenosine in nuclear RNA is a major substrate of the obesity-associated FTO. Nature chemical biology.
Cui, L., Ma, R., Cai, J., Guo, C., Chen, Z., Yao, L., ... & Shi, Y. (2022). RNA modifications: importance in immune cell biology and related diseases. Signal transduction and targeted therapy.
Barbieri, I., & Kouzarides, T. (2020). Role of RNA modifications in cancer. Nature Reviews Cancer.
综述学习 | RNA修饰的类型及其调控蛋白
Cappannini, A., Ray, A., Purta, E., Mukherjee, S., Boccaletto, P., Moafinejad, S. N., ... & Bujnicki, J. M. (2024). MODOMICS: a database of RNA modifications and related information. 2023 update. Nucleic Acids Research.
Liu, Z., Gao, L., Cheng, L., Lv, G., Sun, B., Wang, G., & Tang, Q. (2023). The roles of N6-methyladenosine and its target regulatory noncoding RNAs in tumors: classification, mechanisms, and potential therapeutic implications. Experimental & Molecular Medicine.
科普篇|上百种RNA修饰，除了m6A和m5C，你还知道多少？
Dapars2 分析可变多聚腺苷酸化（APA 3’UTR）与肿瘤 - 小白要变大神
这个好像都没听说过的机制，到底为什么成为国自然热点 - 课题指南针（伍师妹）
Zhang, Y., Liu, L., Qiu, Q., Zhou, Q., Ding, J., Lu, Y., & Liu, P. (2021). Alternative polyadenylation: methods, mechanism, function, and role in cancer. Journal of Experimental & Clinical Cancer Research.
Gao, Y., Liu, X., Wu, B., Wang, H., Xi, F., Kohnen, M. V., ... & Gu, L. (2021). Quantitative profiling of N 6-methyladenosine at single-base resolution in stem-differentiating xylem of Populus trichocarpa using Nanopore direct RNA sequencing. Genome Biology.
Lorenz, D. A., Sathe, S., Einstein, J. M., & Yeo, G. W. (2020). Direct RNA sequencing enables m6A detection in endogenous transcript isoforms at base-specific resolution. RNA.

新生RNA测序数据质量评估——PEPPRO
新生RNA测序（nascent RNA sequencing）是一种针对于全基因组正在进行转录的RNA进行测序的技...
NGS二代测序技术与转化医学研究--2.RNA-seq部分
RNA-seq转录组测序与cfDNA体细胞突变检测相比，基因表达相关的RNA-seq转录组测序在常规的m...
2019-12-09 Day8 学习-转录组与长非编码RNA测序
转录组与长非编码RNA测序分析1
Day1-君君
RNA高通量测序（RNA-seq）定义 RNA-seq即转录组测序技术，就是把mRNA，smallRNA和NON...
单细胞测序技术
单细胞测序的知识系统学习单细胞转录组测序scRNA-Seq(一) 单细胞转录组测序主要步骤 RNA molecul...
10x Genomics单细胞全长转录组测序
敢问目前最火的转录组研究技术是什么？我想回答一定是单细胞转录组测序（scRNA-seq）和全长转录组测序（Iso-...
ONT全长转录组测序分析(三)-pipline背景
第一，二期见丁香园，由于丁香园坑爹的排版方式，已经弃坑。 ONT全长转录组测序分析-背景在进行正式的流程分析之前...
单细胞基础理论
单细胞转录组测序（Single cell RNA sequencing）是在单细胞水平对转录组进行测序的一项新技术...
RNA-seq的十年（下）
前言这一部分的内容主要涉及单细胞测序，空间转录组，新生RNA测序，翻译组，RNA-RNA之间相互作用，RNA-蛋...
RNA sequencing: the teenage year
前言这一部分的内容主要涉及单细胞测序，空间转录组，新生RNA测序，翻译组，RNA-RNA之间相互作用，RNA-蛋...