ChIP-Seq数据挖掘系列-5.2: ngs.plot 画图工
作者:
JeremyL | 来源:发表于
2019-05-22 23:19 被阅读39次
ngs.plot
必需参数
参数 |
参数释义 |
参数示例 |
-G |
基因组名 |
hg18,hg19,mm9,mm10; 详情参见: SupportedGenomes
|
-R |
需要展示的基因组区域 |
tss, tes, genebody, exon, cgi, enhancer, dhs or bed(custom regions) |
-C |
Bam 文件或配置文件 |
配置文件详情参见:: HowToUseConfiguration
|
-O |
输出结果名 |
输出文件前缀 |
可选参数:
参数 |
参数释义 |
参数示例 |
-E |
基因列表或bed文件自定义作图区域 |
如果不提供列表,那么整个基因组都会被绘图;transcript ID,gene ID 和symbol都适用,可以混着用,一行一个;使用bed文件时,与-R bed连用。 |
-T |
图标题 |
图的标题 |
覆盖度生成
Argument |
Explanation |
Accepted value and notes |
-F |
为数据库表或画图类型的选择提供的进一步信息 |
protein_coding,K562,rnaseq (顺序不重要) 表示 coding genes in K562 cell line drawn in rnaseq mode. 更多信息见: UseFurtherInfo;-F [gene_type][,sub_region][,cell_line or tissue][,exon_type][,rnaseq or chipseq] |
-D |
基因数据库 |
默认使用 ensembl, refseq. |
-L |
两侧区域大小 |
以bp为单位. 默认情况: -R=tss, tes, genebody , -L=2000 ; -R=exon, cgi , -L=500 ; when -R=*.bed , -L=1000 . |
-N |
侧翼区域因子 |
当使用时,两侧区域大小等于interval 乘以侧翼区域因子。这样做的好处就是允许侧翼区域大小可以动态变化,使得做出来的图更加自然。 |
-RB |
粗暴统计过滤 |
设定极值占总体的比例,将会从数据的两端删除. 默认设置为 0 (0%). 设置为 0.05 表示从总体中移除 5% 极值. |
-S |
随机抽样率 |
(0, 1]. 从全基因组或者gene list 中抽取一定比例的样本;对于想快速查看结果有很大的帮助。 |
-P |
调用CPU数量 |
设置0调用本地所有CPU |
-AL |
标准化覆盖度向量的算法 |
覆盖度向量可以时任意长度.但是必须归一化为等长,以便取平均值和作图。. |
|
spline(default) |
先进行曲线拟合,然后以相等的间距取值。 |
|
bin |
整个向量被分割成固定数量的大小相等的bin,并计算每个bin的平均值。 |
-CS |
一次加载基因的块多少。 |
在计算覆盖度时,控制一次加载的基因数目,加载的少消耗内存小花费时间多。 |
-MQ |
设置比对质量阈值过滤reads |
默认 20. 20 意味着错配率为 1%. |
-FL |
建库插入片段大小用于计算物理覆盖度 |
默认150. ngs.plot 使用物理覆盖度代替reads丰度. 插入片段大小因该是建库插入片段的平均长度 |
-SS |
特定链的覆盖度计算 |
both(default), same, opposite. |
-IN |
是否是大间隔 |
0 或1. 默认情况下, exon 和 cgi 是小 interval; genebody 和* .bed 是大 interval. X轴一般分成5部分;对于小的interval,中间一部分作为interval 区域,两侧各2个侧翼区域;对于大的interval,中间三部分作为interval 区域,两侧各1个侧翼区域。 |
-FI |
是否输出图 |
0 或1. 设置1表示不输出图,;后续可以利用replot.r处理输出数据生成图。 |
ngs.plot.r 和 replot.r 共有的参数
通用参数
Argument |
Explanation |
Accepted value and notes |
-FS |
字体大小 |
默认为 12 pt. |
富集轮廓图参数
Argument |
Explanation |
Accepted value and notes |
-WD |
图的宽度 |
Default is 8 in. |
-HG |
图的高度 |
Default is 7 in. |
-SE |
布尔值,是否展示标准误差 |
0 或1. 默认情况下,标准误差将呈现为每个曲线周围的阴影区域。 |
-MW |
移动窗口宽度以平滑轮廓图 |
默认1没有移动. window 大小的单位就是一个数据点. ngs.plot图中,x轴为100各数据点. |
-H |
阴影区不透明度 |
建议值:[0,0.5]。将在每个曲线下添加半透明阴影。 |
-YAS |
Y轴大小 |
默认自动调整(auto),也可以通过min_val,max_val设定 |
-LEG |
是否画图列 |
默认为1,展示图列, 0 不展示图列. |
-BOX |
是否给图画上边框 |
默认为1,画出边框, 0 不画边框. |
-VLN |
是否画竖线 |
是否画垂直线在位点(e.g., TSS 和 TES);默认为1,画线, 0 不画线. |
-XYL |
是否绘制X轴和y轴标签? |
默认为1,画出X轴和y轴, 0 不画X轴和y轴. |
-LWD |
线宽度 |
默认3 pt. |
热图参数
Argument |
Explanation |
Accepted value and notes |
-GO |
基因排序算法 |
|
|
total(default) |
第一个轮廓图中总体富集程度 |
|
hc |
层次聚类 |
|
max |
第一个轮廓图中的peak 值大小。如果表观基因组标记倾向于产生更尖锐的峰,这种选择就更有意义。 |
|
prod |
同一区域内所有富集度的乘积。 |
|
diff |
第一个轮廓图和第二个轮廓图的差异 |
|
km |
K-means 聚类. 默认聚 5 类. |
|
none |
没有使用排序算法。使用基因列表中提供的顺序。 |
-LOW |
基于排序的标准化中read count阈值 |
默认 10. |
-KNC |
K-means 聚类的数目 |
默认为 5. |
-MIT |
K-means 最大迭代次数 |
默认20. |
-NRS |
s设定K-means 随机开始的数 |
k -均值倾向于局部最优。反复重启它可能有助于找到更好的聚类方法。默认值是30。 |
-RR |
折合率 |
控制热图的高度。值越小,热图就越高。默认值是30。 |
-SC |
热图的颜色比例 |
设置数据值映射到颜色的范围。一定范围任何值都将映射到与相同颜色范围。 |
|
local(default) |
每一个热图都有一个自己颜色范围 |
|
region |
同样region的所有的热图用同样的颜色范围 |
|
global |
在当前的图中使用相同的颜色范围 |
|
min_val,max_val |
自定义颜色范围;0,5表示最小值是0,最大值是5 |
-FC |
过滤分数 |
默认 0.02(2%). 最大最小的2%数都丢弃 |
-CO |
热图颜色 |
对于一对bam文件,使用color-tri(neg_color:[neu_color]:pos_color). 注意: 必需使用 R 的颜色, 例如 darkgreen, yellow and blue2. |
-CD |
热图的颜色分布 |
默认为 0.6. 必需是正数. 注意: 数值越低,负数端的颜色间距越大. |
参考:
ProgramArguments101
ChIP-Seq 数据挖掘系列文章目录:
ChIP-Seq数据挖掘系列-1:Motif 分析(1)-HOMER 安装
ChIP-Seq数据挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步骤
ChIP-Seq数据挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq结果在基因组区域中寻找富集的Motifs
ChIP-Seq数据挖掘系列-4: liftOver - 基因组坐标在不同基因组注释版本间转换
ChIP-Seq数据挖掘系列-5.1: ngs.plot 可视化ChIP-Seq 数据
ChIP-Seq数据挖掘系列-5.2: ngs.plot 画图工具ngs.plot.r 和 replot.r 参数详解
本文标题:ChIP-Seq数据挖掘系列-5.2: ngs.plot 画图工
本文链接:https://www.haomeiwen.com/subject/wffmzqtx.html
网友评论