小RNA数据分析-第二步

小RNA数据分析-第二步

作者: 纳灰灰 | 来源:发表于2019-03-04 20:18 被阅读4次

小RNA数据分析-第二步
assembly
编程学习第一天
RNA sequencing: the teenage year
exoRBase：人类血液外泌体RNA数据库
为什么宏基因组数据分析比较难？
1.Empirical assessment of analys
转录组差异表达分析—ballgown
RNA-seq分析：从fastq到差异表达基因
R|FPKM、RPKM差异分析

上次讲到sRNA数据如何去接头，那么接下来的常规操作是什么？

流程图

一、去冗余（collapse）--- 用于比对的数据是否需要去冗余

作用：将相同reads合并，记录相同reads出现的次数

fastx_collapser -iSRR4010495_trimmed.fa -o SRR4010495_mc.fa

去冗余后的数据形式

去冗余后文件

“-”之前为编号，“-”之后为该read的丰度

当然也可以用CJ的TBtools来操作这一步：

java -cpTBtools_JRE1.6.jar biocjava.sRNA.Tools.sRNAseqCollasper --inFxSRR4010495_trimmed.fa --outCollaspedFa SRR4010495_mc.fa

Note：一般情况下去冗余这一步只在后续进行miRNA挖掘即预测phasiRNAs用到，用IGV查看的数据不需要去冗余，IGV需要展示每一条reads

是否去冗余对于查看IGV的影响如下：

去冗余

上图为去冗余后的数据产生的比对文件

未去冗余

上图为未去冗余的数据产生的比对文件

IGV对比

去冗余后的数据reads覆盖度明显降低

二、将未去冗余的数据回帖到基因组

建bowtie索引

bowtie-build -fFragaria_vesca.genome.fna Fragaria_vesca

回帖

bowtie -a -m 50 -v 0 -p 12 -f -S Fragaria_vescaSRR4010495_trimmed.fa SRR4010495.mapping.sam

#同一品种错配数为0；同一物种不同品种允许错配数为1，考虑到SNP的存在；

三、比对文件排序建索引

sambamba view -f bam-S SRR4010495.mapping.sam -o SRR4010495.mapping.bam -t 10

sambamba sortSRR4010495.mapping.bam -o SRR4010495.mapping.sorted.bam -t 10

sambamba indexSRR4010495.mapping.sorted.bam

sambamba相对于samtools更快

四、将比对文件加载到IGV查看sRNA数据

导入基因组文件和*.sorted.bam和*.sorted.bam.bai文件

sRNA数据可能会看到以下几种情况：

1、产生miRNA的区域

这个区域有两个产生于同一条链（红色：+；蓝色：-）的独立峰，两个峰之间无其他杂峰，高峰为miRNA的成熟序列reads，低峰为miRNA的star序列reads；

右键高峰reads----Copy

read sequence----miRBase中进行序列比对确认该miRNA是否有注释

产生miRNA的区域

2、产生phasiRNAs的区域

这个区域包含两条链产生的reads，且产生的reads以较为整齐的21nt，21nt相位切割的形式呈现；

用IGV的Define a region of interest工具选取PHAS区域及其前后各100bp的序列----psRNATarget预测该PHAS的trigger----Swissprot库比对查看该PHAS的注释

产生phasiRNAs的区域

3、重复序列区域

基因组中有大量的重复序列，这种区域产生的reads多为24nt，因此sRNA测序数据数量最多为24nt的reads；这个区域的reads通常没有相位切割的规律，以“一片云”的状态呈现

重复序列区域

相关文章

小RNA数据分析-第二步
上次讲到sRNA数据如何去接头，那么接下来的常规操作是什么？一、去冗余（collapse）--- 用于比对的数据...
assembly
RNA-Seq数据分析第二步：assembly 将map后的reads组装成完整的转录本组装原理类似有向图分析，...
编程学习第一天
分析Developmental Cell paper中的RNA seq数据目标： 1. 学会如何分析RNA se...
RNA sequencing: the teenage year
前言这一部分主要涉及常规RNA-seq的数据分析，提到了常见的数据分析流程。 RNA-seq数据分析用于分析测...
exoRBase：人类血液外泌体RNA数据库
导语 exoRBase是从人类血液外泌体的RNA-seq数据分析得出的环状RNA（circRNA），长非编码RNA...
为什么宏基因组数据分析比较难？
生物数据分析包括很多种类，比如人基因组，植物，动物，微生物，还有RNA，单细胞RNA等等，其中宏基因组数据分析是比...
1.Empirical assessment of analys
RNA-seq分析流程分析：RNA-seq数据分析流程主要由序列对比，表达矩阵构建，差异基因鉴定等三大步骤构成【1...
转录组差异表达分析—ballgown
ballgown是一个差异表达分析RNA-Seq数据的R包对数据的要求： 1. RNA-Seqreads应已比对...
RNA-seq分析：从fastq到差异表达基因
RNA-seq的数据分析是比较简单基础的分析，大概流程就是处理下机的fastq数据（trimmomatic），比对...
R|FPKM、RPKM差异分析
芯片数据差异分析，常规用limma进行差异分析，而对于RNA-seq数据，常用edgeR、DEseq2和limma...

网友评论

ncRNA

本文标题：小RNA数据分析-第二步

本文链接：https://www.haomeiwen.com/subject/pcdwuqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

ncRNA

关于我们|服务条款|联系我们|小RNA数据分析-第二步|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！