生信R画图

作者: byejya | 来源:发表于2021-06-24 10:43 被阅读0次

生信R画图
R循环画图
Day7-R语言-basic visualization for
生信入门6-R画图
Linux上安装R-3.3.0遇到缺失包的解决方法
R语言之生信⑦Cox比例风险模型(单因素)
R语言之生信⑧Cox比例风险模型(多因素)
R语言之生信（9）R语言多个生存分析曲线比较
R语言之生信（10）多个探针对应一个基因的处理方法
R语言之生信（11）五分钟学会用R语言构建ceRNA网络

能画的图：

先决条件：差异分析

热图

序列分析图 sequence logo

使用ggseqlogo可视化motif - 云+社区 - 腾讯云 (tencent.com)

1

重点：输入文件格式

热图：

步骤，库，输入文件。

步骤：读取文件为数据->重整为ggplot2识别的数据

库：ggplot2

总结：其实就是需要Name value rescale写成列的形式，就是把矩阵变成三列，知道输入的形式，就用R重组下数据。

用R读取文件：

其实就是先找到name，把他转为列，再把set转为列，再把value转成列，转成三列就行。

转为三列，主要依赖melt

热图完整版：

文件：关键点在不能数字：数字或者数字/数字，需要小数。

1

代码：关键点在row.name=1,不把第一列当作列名

1

由此：合并的格式要改

火山图和差异分析：

先要得到：转录组定量-featureCounts

采用的是alignment-based转录组定量策略

经典流程是：

1、从获取原始数据，中间经历过滤、比对，到featureCounts统计基因上的reads数，

2、从reads数统计的结果，经过表达矩阵构建、基因ID转换、去冗余ID、表达量单位转换，最终拿到可靠的表达矩阵，从表达矩阵开始，然后走差异分析、富集分析等等。

现在已经有编辑水平的结果了，问题是在每个样本中编辑水平都不同，

标准化参考：https://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247490699&idx=2&sn=6d7e0d96779d4885f3c36089cdd31516&scene=21#wechat_redirect

对给定的基因组参考区域，计算比对上的read数，又称为raw count（RC）。合并之前的单个跑出的肯定都只能是rc，因此需要标准化，

raw count作为原始的read计数矩阵是一个绝对值，而绝对值的特点是规模不同（基因长度、测序深度），不可以比较。进行这些基因标准化方法的目的是将count矩阵转变为相对值，去除技术偏差的影响，使后续的差异分析具有统计学的意义。

RPKM与FPKM的区别：RPKM值适用于单末端RNA-seq实验数据，FPKM适用于双末端RNA-seq测序数据。

因此用FPKM进行标准化是第一步。

流程计划为：

标准化（FPKM）->构建表达矩阵->差异分析

饼图：

1

再加个百分比和按从小到大

从小到大需要：让数据框的数据按 num从大到小排序

百分比可以在R中计算，但是没加上。

1

真实数据测试：

1

根据文章的思路去研究：

参考文献为：

1.全景研究

1.1堆叠柱状图，画每个位点的editing count/total reads of this locus 但是数据太大，恐怕画不出，或者画两条折线的折线图。又因为是要通过全景去筛选，而对row count的筛选条件应该是同时考虑 editing count total reads of this locus 和 editing count/total reads of this locus，首先应筛去比值小的，其次再在比值大的中筛去total reads of this locus小的。由此能画出筛选前后的图

1.2