pacbio 三代全长转录组数据分析流程

pacbio 三代全长转录组数据分析流程

作者: 生信小院 | 来源:发表于2020-10-08 22:51 被阅读0次

Pacbio 三代全长转录组IsoSeq3数据分析
全长转录本结构分析（下）
pacbio 三代全长转录组数据分析流程
全长转录组分析-小麦
Iso-Seq3|三代全长转录组分析
小麦三代转录组融合基因定量
转录组测序（2018-05-28）
PacBio全长转录组“祖传”应用方向
三代全长转录组辅助基因预测
ONT全长转录组测序分析(三)-pipline背景

Iso-seq基础概念，转载自https://blog.csdn.net/weixin_34384681/article/details/85937505
Iso-seq , 全称叫做 Isoform-sequencing, 是 Pacbio 公司对自己开发的转录本测序技术的规范化命名；是利用三代测序长读长的特点，不打断转录本，直接测序，从而得到全长转录本的一种测序技术。

1）ROI

了解过三代测序数据分析的人，对于CCS 环形一致性序列的概念肯定不会陌生，在iso-seq中，提出了比CCS 更加灵活的一个概念：ROI

ROI , 全称 reads of insert，可以理解为插入片段，首先看下三代测序文库构建阶段的reads示意图：

1.png

对于上述的文库片段，测序产生的reads 示意图如下：

image

由于是一个环状分子，随着测序反应的进行，会循环测序；如果把插入片段的正负链都测了一次，就做1个full pass;

对于CCS 而言，要求至少有2个full pass , 才能去生成CCS reads; 三代测序的特点就是读长很长，可以达到十几kb, 对于短的插入片段而言，CCS这样定义当然没有问题，但是对于全长转录本

而言，转录本长度很长，比如转录本长度1kb, 读长3kb, 此时在一个零模波导孔（ZMW）中测序的reads 就不可能达到2个full pass , 也就产生不了CCS reads, 为了解决这个问题，提高reads的利用率，提出了ROI 的概念，ROI 指的就是插入片段，上图测序reads 产生的ROI 如下：

image

ROI 不要求满足2个full pass，相对CCS 而言，更加适合全长转录本的分析；

2）artifacts

可以理解为，共有两种来源：

Artificial Concatemer

image

这种序列是由于文库制备阶段，adapter 序列错误的将两条转录本的序列链接构成了一个环状分子，这个和adapter 浓度有关，通常这种reads 产生的比例很少，小于0.5%，在后续的分析中，这部分reads 需要去除

PCR Chimera

image

在PCR 反应中，由于不完全延伸的产物作为了下次扩增反应的引物，导致出现嵌合体序列，直观上看，就是PCR产物来源于两条或者多条reads；

PCR 产生的嵌合体序列，在PCR 反应体系中，这种序列是不可避免的，大约有3%的比例，在后续的分析过程中，可以借助软件去除这部分reads；

FL Reads

FL , Full-length reads, 全长转录本

从raw data 到 ROI , 在从ROI 去除 artifacts reads 之后，我们就得到了用于后续分析的clean reads;

clean reads 就已经是转录本的序列了，我们首先看一下clean reads 当中，哪些是全长转录本；哪些不是全长转录本，这个操作就是分类，classify

全长转录本的示意图如下：

image

对于全长转录本而言，其ROI reads 中包含5‘ primer 和 3‘ primer; 而且会出现polyA 为结构；（polyA 针对mRNA和部分lncRNA）

对于不同大小的文库，其全长转录本的比例也不同：

image

可以看到，文库片段越长，全长转录本的比例越低；

4） consensus transcript isoforms

一致性转录本序列，一个ZMW 产生一个转录本的reads, 肯定会有冗余的reads 出现，这是通过聚类（cluster）的方式，就全长转录本序列进行聚类，可以得到一致性的转录本序列；

数据分析流程：https://github.com/PacificBiosciences/IsoSeq/blob/master/isoseq-clustering.md

image.png

步骤

software install

$ conda install -c isoseq3 bioconda pbccs lima pbcoretools

Circular Consensus Sequence calling

$ ccs m54045_190809_102313.subreads.bam m54045.ccs.bam -j 20 --min-rq 0.9

image.png

Primer removal and demultiplexing

$ lima m54045.ccs.bam IsoSeqPrimers.fasta m54045.fl.bam -j 20 --isoseq --peek-guess

image.png

image.png

Refine

$ isoseq3 refine m54045.fl.primer_5p--primer_3p.bam IsoSeqPrimers.fasta m54045.flnc.bam -j 20 --require-polya

image.png

Clustering Parallel Polishing

$ isoseq3 cluster m54045.flnc.bam clustered.bam --verbose --use-qvs

image.png

相关文章

Pacbio 三代全长转录组IsoSeq3数据分析
pacbio三代全长转录组数据分析isoseq31 参考官方文档及其他教程，包括原理、流程等 2 软件安装主要参考...
全长转录本结构分析（下）
作者：Arno审稿：童蒙编辑：angelica 前面我们介绍了PacBio三代全长转录组测序相关的全长转录本鉴定、...
pacbio 三代全长转录组数据分析流程
Iso-seq基础概念，转载自https://blog.csdn.net/weixin_34384681/arti...
全长转录组分析-小麦
前言近期分析了一部分小麦的全长转录组数据，参考了网上许多流程，收获良多，在此记录一下全长转录组测序基于PacB...
Iso-Seq3|三代全长转录组分析
Iso-Seq 3 大家都知道全长转录组（Full-length transcriptome）是基于PacBio和...
小麦三代转录组融合基因定量
小麦三代转录组融合基因定量三代转录组的序列普遍比较长，得到的是完整的全长的转录本，在后期处理过程中无需组装，大...
转录组测序（2018-05-28）
原文来自：聊聊转录组测序——2.数据分析与解读（上）流程概览转录组测序的分析流程大致可以分成三类，包括基因组比...
PacBio全长转录组“祖传”应用方向
全长转录组（Iso-Seq）指利用三代长读长测序平台，无需打断和拼接，直接获取包含5’UTR，3’UTR及Poly...
三代全长转录组辅助基因预测
三代全长转录组辅助基因预测 1 、简介目前随着三代测序技术的普及和成本的降低，相信在不久的将来，大面积内使用全长...
ONT全长转录组测序分析(三)-pipline背景
第一，二期见丁香园，由于丁香园坑爹的排版方式，已经弃坑。 ONT全长转录组测序分析-背景在进行正式的流程分析之前...

网友评论

本文标题：pacbio 三代全长转录组数据分析流程

本文链接：https://www.haomeiwen.com/subject/tqfyyktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

三代转录组

热点阅读

生信专题

三代转录组

组装

RNA-seq

转录组

关于我们|服务条款|联系我们|pacbio 三代全长转录组数据分析流程|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！