美文网首页生物信息学习ChIP-seq生物信息学与算法
ChIP-Seq数据挖掘系列-5.2: ngs.plot 画图工

ChIP-Seq数据挖掘系列-5.2: ngs.plot 画图工

作者: JeremyL | 来源:发表于2019-05-22 23:19 被阅读39次
    ngs.plot

    必需参数

    参数 参数释义 参数示例
    -G 基因组名 hg18,hg19,mm9,mm10; 详情参见: SupportedGenomes
    -R 需要展示的基因组区域 tss, tes, genebody, exon, cgi, enhancer, dhs or bed(custom regions)
    -C Bam 文件或配置文件 配置文件详情参见:: HowToUseConfiguration
    -O 输出结果名 输出文件前缀

    可选参数:

    参数 参数释义 参数示例
    -E 基因列表或bed文件自定义作图区域 如果不提供列表,那么整个基因组都会被绘图;transcript ID,gene ID 和symbol都适用,可以混着用,一行一个;使用bed文件时,与-R bed连用。
    -T 图标题 图的标题

    覆盖度生成

    Argument Explanation Accepted value and notes
    -F 为数据库表或画图类型的选择提供的进一步信息 protein_coding,K562,rnaseq (顺序不重要) 表示 coding genes in K562 cell line drawn in rnaseq mode. 更多信息见: UseFurtherInfo;-F [gene_type][,sub_region][,cell_line or tissue][,exon_type][,rnaseq or chipseq]
    -D 基因数据库 默认使用 ensembl, refseq.
    -L 两侧区域大小 以bp为单位. 默认情况: -R=tss, tes, genebody, -L=2000; -R=exon, cgi, -L=500; when -R=*.bed, -L=1000.
    -N 侧翼区域因子 当使用时,两侧区域大小等于interval 乘以侧翼区域因子。这样做的好处就是允许侧翼区域大小可以动态变化,使得做出来的图更加自然。
    -RB 粗暴统计过滤 设定极值占总体的比例,将会从数据的两端删除. 默认设置为 0 (0%). 设置为 0.05 表示从总体中移除 5% 极值.
    -S 随机抽样率 (0, 1]. 从全基因组或者gene list 中抽取一定比例的样本;对于想快速查看结果有很大的帮助。
    -P 调用CPU数量 设置0调用本地所有CPU
    -AL 标准化覆盖度向量的算法 覆盖度向量可以时任意长度.但是必须归一化为等长,以便取平均值和作图。.
    spline(default) 先进行曲线拟合,然后以相等的间距取值。
    bin 整个向量被分割成固定数量的大小相等的bin,并计算每个bin的平均值。
    -CS 一次加载基因的块多少。 在计算覆盖度时,控制一次加载的基因数目,加载的少消耗内存小花费时间多。
    -MQ 设置比对质量阈值过滤reads 默认 20. 20 意味着错配率为 1%.
    -FL 建库插入片段大小用于计算物理覆盖度 默认150. ngs.plot 使用物理覆盖度代替reads丰度. 插入片段大小因该是建库插入片段的平均长度
    -SS 特定链的覆盖度计算 both(default), same, opposite.
    -IN 是否是大间隔 0 或1. 默认情况下, exon 和 cgi 是小 interval; genebody 和*.bed 是大 interval. X轴一般分成5部分;对于小的interval,中间一部分作为interval 区域,两侧各2个侧翼区域;对于大的interval,中间三部分作为interval 区域,两侧各1个侧翼区域。
    -FI 是否输出图 0 或1. 设置1表示不输出图,;后续可以利用replot.r处理输出数据生成图。

    ngs.plot.r 和 replot.r 共有的参数

    通用参数

    Argument Explanation Accepted value and notes
    -FS 字体大小 默认为 12 pt.

    富集轮廓图参数

    Argument Explanation Accepted value and notes
    -WD 图的宽度 Default is 8 in.
    -HG 图的高度 Default is 7 in.
    -SE 布尔值,是否展示标准误差 0 或1. 默认情况下,标准误差将呈现为每个曲线周围的阴影区域。
    -MW 移动窗口宽度以平滑轮廓图 默认1没有移动. window 大小的单位就是一个数据点. ngs.plot图中,x轴为100各数据点.
    -H 阴影区不透明度 建议值:[0,0.5]。将在每个曲线下添加半透明阴影。
    -YAS Y轴大小 默认自动调整(auto),也可以通过min_val,max_val设定
    -LEG 是否画图列 默认为1,展示图列, 0 不展示图列.
    -BOX 是否给图画上边框 默认为1,画出边框, 0 不画边框.
    -VLN 是否画竖线 是否画垂直线在位点(e.g., TSS 和 TES);默认为1,画线, 0 不画线.
    -XYL 是否绘制X轴和y轴标签? 默认为1,画出X轴和y轴, 0 不画X轴和y轴.
    -LWD 线宽度 默认3 pt.

    热图参数

    Argument Explanation Accepted value and notes
    -GO 基因排序算法
    total(default) 第一个轮廓图中总体富集程度
    hc 层次聚类
    max 第一个轮廓图中的peak 值大小。如果表观基因组标记倾向于产生更尖锐的峰,这种选择就更有意义。
    prod 同一区域内所有富集度的乘积。
    diff 第一个轮廓图和第二个轮廓图的差异
    km K-means 聚类. 默认聚 5 类.
    none 没有使用排序算法。使用基因列表中提供的顺序。
    -LOW 基于排序的标准化中read count阈值 默认 10.
    -KNC K-means 聚类的数目 默认为 5.
    -MIT K-means 最大迭代次数 默认20.
    -NRS s设定K-means 随机开始的数 k -均值倾向于局部最优。反复重启它可能有助于找到更好的聚类方法。默认值是30。
    -RR 折合率 控制热图的高度。值越小,热图就越高。默认值是30。
    -SC 热图的颜色比例 设置数据值映射到颜色的范围。一定范围任何值都将映射到与相同颜色范围。
    local(default) 每一个热图都有一个自己颜色范围
    region 同样region的所有的热图用同样的颜色范围
    global 在当前的图中使用相同的颜色范围
    min_val,max_val 自定义颜色范围;0,5表示最小值是0,最大值是5
    -FC 过滤分数 默认 0.02(2%). 最大最小的2%数都丢弃
    -CO 热图颜色 对于一对bam文件,使用color-tri(neg_color:[neu_color]:pos_color). 注意: 必需使用 R 的颜色, 例如 darkgreen, yellow and blue2.
    -CD 热图的颜色分布 默认为 0.6. 必需是正数. 注意: 数值越低,负数端的颜色间距越大.

    参考:

    ProgramArguments101



    ChIP-Seq 数据挖掘系列文章目录:
    ChIP-Seq数据挖掘系列-1:Motif 分析(1)-HOMER 安装
    ChIP-Seq数据挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步骤
    ChIP-Seq数据挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq结果在基因组区域中寻找富集的Motifs
    ChIP-Seq数据挖掘系列-4: liftOver - 基因组坐标在不同基因组注释版本间转换
    ChIP-Seq数据挖掘系列-5.1: ngs.plot 可视化ChIP-Seq 数据
    ChIP-Seq数据挖掘系列-5.2: ngs.plot 画图工具ngs.plot.r 和 replot.r 参数详解

    相关文章

      网友评论

        本文标题:ChIP-Seq数据挖掘系列-5.2: ngs.plot 画图工

        本文链接:https://www.haomeiwen.com/subject/wffmzqtx.html