安装
ChIP-seq分析要用的参数
参数 | 功能 | 例如ChIP中 |
---|---|---|
--binSize or -bs
|
获取不同的分辨率,默认为50 | -bs 10 |
-p INT |
限定线程数,可以是“max/2”表示用一半可用的核数; 可以是“max”表示用所有可用的核 | -p 3 |
--normalizeUsing |
标准化化每个bin的读取数(包括RPKM, CPM, BPM, RPGC, None,默认为None) | RPKM |
--effectiveGenomeSize |
有效基因组是只基因组中以被map的部分。基因组中有很多被标为NNNN的区域,应该被丢弃。此外,在reads的map过程中,不能被map的重复区域需要丢掉。因此需要相应地调整有效基因组大小。 | |
-ignore or --ignoreForNormalization
|
用空格分隔出的一列不需要标准化计算的染色体名称。这对分析在染色体上覆盖度不均等的样品有用。 | --ignoreForNormalization chrX chrM |
-e or --extendReads
|
此参数允许将读取扩展到片段大小。设置后每个读操作都将被扩展。注意:通常不建议对拼接读取数据(如RNA-seq)使用此功能,因为它将在跳过的区域上扩展读取。Single-end(单端测序):需要用户指定末端片段长度,超过此长度的reads将不被延伸;Paired-end(双端测序):有mate的reads会延伸到两个read mates的片段大小相匹配。未配对的reads(mate read间隔太长,>4x片段长度,甚至不同染色体)都被视为单端测序的reads。片段长度值可以不人为设定,程序可以根据所有mate reads的片段大小的平均值进行估计。 | |
-b |
指定需要转的BAM文件 | -b xxx.bam |
-o |
输出文件名 | -o xxx.bw |
-of or --outFileFormate
|
输出文件格式 |
bigwig or bedgraph
|
知识加油站
- coverage normalization 表示覆盖范围标准化
-
--effectiveGenomeSize
有效基因组大小如何计算呢?我不会,faCount会,这是一个UCSC工具,方便快捷。 - Single-end、Paired-end及Mate-pair是三种不同的测序方法。
Single-end(SE)是先将DNA片段化为200-500bp → 引物序列连接到DNA片段一端 → 末端加接头 → 固定在flow cell上 → 上机测序;
Paired-End(PE)是在建库时在两端接头上都加测序引物结合位点 → 第一轮测序 → 去除第一轮模板链 → 用引导互补链在原位置扩增,达到第二轮测序模板量 → 互补链合成测序;
Mate-pire(MP)也是双端测序,只是其重在对基因组中跨度较大的片段两端的序列进行测序。
通常情况下转录组测序都采用的是Paired-end测序法,小RNA测序采用单端50bp测序。
更详细参看链接Single-end、Paired-end及Mate-pair的关系,也可以去illumina看一哈 Advantages of paired-end and single-read sequencing
bamCoverage -b cenh3.sorted.bam -o cenh3.bw -p 2 -bs 10 \
--normalizeUsing RPGC \
--effectiveGenomeSize 301150588 \
--extendReads
网友评论