美文网首页
生信R画图

生信R画图

作者: byejya | 来源:发表于2021-06-24 10:43 被阅读0次

能画的图:

先决条件:差异分析

热图    

序列分析图  sequence logo

使用ggseqlogo可视化motif - 云+社区 - 腾讯云 (tencent.com)

1

重点:输入文件格式

热图:

步骤,库,输入文件。

步骤:读取文件为数据->重整为ggplot2识别的数据

库:ggplot2

总结:其实就是需要Name value rescale写成列的形式,就是把矩阵变成三列,知道输入的形式,就用R重组下数据。

用R读取文件:

其实就是先找到name,把他转为列,再把set转为列,再把value转成列,转成三列就行。

转为三列,主要依赖melt

热图完整版:

文件:关键点在不能数字:数字或者数字/数字,需要小数。

1

代码:关键点在row.name=1,不把第一列当作列名

1

由此:合并的格式要改

火山图和差异分析:

先要得到:转录组定量-featureCounts

采用的是alignment-based转录组定量策略

经典流程是:

1、从获取原始数据,中间经历过滤、比对,到featureCounts统计基因上的reads数,

2、从reads数统计的结果,经过表达矩阵构建、基因ID转换、去冗余ID、表达量单位转换,最终拿到可靠的表达矩阵,从表达矩阵开始,然后走差异分析、富集分析等等。

现在已经有编辑水平的结果了,问题是在每个样本中编辑水平都不同,

标准化参考:https://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247490699&idx=2&sn=6d7e0d96779d4885f3c36089cdd31516&scene=21#wechat_redirect

对给定的基因组参考区域,计算比对上的read数,又称为raw count(RC)。合并之前的单个跑出的肯定都只能是rc,因此需要标准化,

raw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是规模不同(基因长度、测序深度),不可以比较。进行这些基因标准化方法的目的是将count矩阵转变为相对值,去除技术偏差的影响,使后续的差异分析具有统计学的意义。

RPKM与FPKM的区别:RPKM值适用于单末端RNA-seq实验数据,FPKM适用于双末端RNA-seq测序数据。

因此用FPKM进行标准化是第一步。

流程计划为:

标准化(FPKM)->构建表达矩阵->差异分析

饼图:

1 1

再加个百分比和按从小到大

从小到大需要:让数据框的数据按 num从大到小排序

百分比可以在R中计算,但是没加上。

1

真实数据测试:

1 1

根据文章的思路去研究:

参考文献为:

1.全景研究

        1.1堆叠柱状图,画每个位点的editing count/total reads of this locus 但是数据太大,恐怕画不出,或者画两条折线的折线图。又因为是要通过全景去筛选,而对row count的筛选条件应该是同时考虑 editing count  total reads of this locus 和 editing count/total reads of this locus,首先应筛去比值小的,其次再在比值大的中筛去total reads of this locus小的。由此能画出筛选前后的图

        1.2

相关文章

网友评论

      本文标题:生信R画图

      本文链接:https://www.haomeiwen.com/subject/jmfedltx.html