能画的图:
先决条件:差异分析
热图
序列分析图 sequence logo
使用ggseqlogo可视化motif - 云+社区 - 腾讯云 (tencent.com)

重点:输入文件格式
热图:
步骤,库,输入文件。
步骤:读取文件为数据->重整为ggplot2识别的数据
库:ggplot2
总结:其实就是需要Name value rescale写成列的形式,就是把矩阵变成三列,知道输入的形式,就用R重组下数据。
用R读取文件:
其实就是先找到name,把他转为列,再把set转为列,再把value转成列,转成三列就行。
转为三列,主要依赖melt
热图完整版:
文件:关键点在不能数字:数字或者数字/数字,需要小数。

代码:关键点在row.name=1,不把第一列当作列名

由此:合并的格式要改
火山图和差异分析:
先要得到:转录组定量-featureCounts
采用的是alignment-based转录组定量策略
经典流程是:
1、从获取原始数据,中间经历过滤、比对,到featureCounts统计基因上的reads数,
2、从reads数统计的结果,经过表达矩阵构建、基因ID转换、去冗余ID、表达量单位转换,最终拿到可靠的表达矩阵,从表达矩阵开始,然后走差异分析、富集分析等等。
现在已经有编辑水平的结果了,问题是在每个样本中编辑水平都不同,
标准化参考:https://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247490699&idx=2&sn=6d7e0d96779d4885f3c36089cdd31516&scene=21#wechat_redirect
对给定的基因组参考区域,计算比对上的read数,又称为raw count(RC)。合并之前的单个跑出的肯定都只能是rc,因此需要标准化,
raw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是规模不同(基因长度、测序深度),不可以比较。进行这些基因标准化方法的目的是将count矩阵转变为相对值,去除技术偏差的影响,使后续的差异分析具有统计学的意义。
RPKM与FPKM的区别:RPKM值适用于单末端RNA-seq实验数据,FPKM适用于双末端RNA-seq测序数据。
因此用FPKM进行标准化是第一步。
流程计划为:
标准化(FPKM)->构建表达矩阵->差异分析
饼图:


再加个百分比和按从小到大
从小到大需要:让数据框的数据按 num从大到小排序
百分比可以在R中计算,但是没加上。

真实数据测试:


根据文章的思路去研究:
参考文献为:
1.全景研究
1.1堆叠柱状图,画每个位点的editing count/total reads of this locus 但是数据太大,恐怕画不出,或者画两条折线的折线图。又因为是要通过全景去筛选,而对row count的筛选条件应该是同时考虑 editing count total reads of this locus 和 editing count/total reads of this locus,首先应筛去比值小的,其次再在比值大的中筛去total reads of this locus小的。由此能画出筛选前后的图
1.2
网友评论