美文网首页scATAC
exomePeak2 使用笔记之自建 BSgenome Obje

exomePeak2 使用笔记之自建 BSgenome Obje

作者: AZhanluang | 来源:发表于2021-01-14 11:28 被阅读0次

    exomePeak2 使用笔记之自建 BSgenome Object

    最近需要使用 exomePeak2 这个包来对玉米的 RNA-seq 和 RIP-seq 数据进行 peak calling,但其中的 bsgenome 参数需要导入对应物种的 BSgenome object,所以需要自主构建参考基因组的 BSgenome data package。

    BSgenome 数据包

    BSgenome 数据包是基于 Biostrings 构建的全基因组数据序列数据包。BSgenome 数据包中包含物种的数据并且具有相似的数据结构,可以用统一的方式进行处理,由 BSgenome 软件包提供。

    首先安装 BSgenome 包。

    if (!requireNamespace("BiocManager", quietly = TRUE)) 

      install.packages("BiocManager") 

    BiocManager::install("BSgenome")  

    然后导入包,并查看官方已有的 BSgenome 数据包

    library(BSgenome)

    ag <- available.genomes()

    但当前版本中没有玉米的数据包,所以需要自己构建。

    1. 构建玉米的 BSgenome 数据包

    1) 首先将 fa 文件转换为 2bit 文件。 此时需要用到 faToTwoBit。

    faToTwoBit zmB73.fa zmB73.2bit

    2) 提取玉米的染色体名称

    less -S zmB73.fa | grep ">" |awk '{print $1}' | sed 's/^>//g' > zmB73.chromName.txt

    3) 书写玉米的 seed 文件 ZmaysZm4_seed。此处我使用的参考基因组版本是 Zea Mays RefGen_v4 (AGPv4)。

    根据 BSgenome 的参考文件 https://www.bioconductor.org/packages/devel/bioc/vignettes/BSgenome/inst/doc/BSgenomeForge.pdf 第二章: 2.2 Prepare the BSgenome data package seed file 提示编写。

    Package: BSgenome.Zmays.Ensemble.zmv4

    Title: Genome sequences for Zea mays (Ensemble AGPv4)

    Description: A BSgenome package containing the full genome sequences for Zea mays (Maize) as provided by Ensemble (B73 AGPv4, Sept. 2020) and stored in Biostrings objects.

    Version: 1.0

    organism: Zea mays

    common_name: Maize

    provider: Ensemble

    provider_version: zmv4

    release_date: Sept. 2020

    release_name: Maize Genome Sequencing B73 RefGen_v4.0

    #source_url: ftp://ftp.ensemblgenomes.org/pub/plants/release-49/fasta/zea_mays/dna/

    circ_seqs: c("Mt","Pt")

    organism_biocview: Zea_mays

    BSgenomeObjname: Zmays

    seqs_srcdir: /data/zhanmin/preparation/index/

    seqfiles_suffix: .fa

    seqnames: seqnames1 # or you can use the R code directly: as.character(read.table(" zmB73.chromName.txt ")$V1)

    seqfile_name: zmB73.2bit

    4) 在 R 中构建 R 包

    library(rtracklayer)

    library(BSgenome)

    ## import the sequence names of maize

    ## If you already use the R code in seed file to read the sequence names,  this part code is not necessary.

    seqnames=read.table("zmB73.chromName.txt")

    seqnames1=as.character(seqnames$V1)

    # import seed file

    zmB73_seed="BSgenome.Zmays.Ensemble.zm4-seed"

    # make the BSgenome data package for maize. seqs_srcdir: the dirctory of sequence file; destdir: the directory of output 

    forgeBSgenomeDataPkg(zmB73_seed, seqs_srcdir=getwd(), destdir=getwd(), verbose=TRUE)

    运行完毕后会在指定目录或工作目录中产生输出文件夹:BSgenome.Zmays.Ensemble.zmv4

    2. 在 linux 中构建 R 包

    1) 使用 build 命令构建 R 包

    R CMD build BSgenome.Zmays.Ensemble.zmv4 #运行后会产生相应的 tar.gz 压缩文件

    此时发生报错:

    ERROR

    cannot change to directory ‘BSgenome.Zmays.Ensemble.zmv4’

    (python3.7) user@amax:/data/user/preparation/index/BSgenome.Zmays.Ensemble.zmv4$ cd ..

    (python3.7) user@amax:/data/user/preparation/index$ R CMD build BSgenome.Zmays.Ensemble.zmv4

    * checking for file ‘BSgenome.Zmays.Ensemble.zmv4/DESCRIPTION’ ... OK

    * preparing ‘BSgenome.Zmays.Ensemble.zmv4’:

    * checking DESCRIPTION meta-information ... ERROR

    Malformed package version.

    See section 'The DESCRIPTION file' in the 'Writing R Extensions'

    manual.

    根据提示查阅 Writing R Extensions 文档的 The DESCRIPTION file 章节,并对比自己的 description 文件。

    发现是 Version 这个参数写错了,规定的范围值应该是 0.5-1,但这里我自己的文档写了 41。 这里应该直接从 seed 文件修改。

    先把 seed 文件的 Version 改为 1.0, 然后重复 1. 4的步骤,重新构建 R 包。再次执行 R CMD build 命令,此时就成功了。

    2) 用 check 命令查看是否产生 tar.gz 压缩文件

    R CMD check BSgenome.Zmays.Ensemble.zmv4_1.0.tar.gz

    3) 导入 R 包

    R CMD INSTALL BSgenome.Zmays.Ensemble.zmv4_1.0.tar.gz

    exomePeak2 进行 peak calling

    1. 导入所需要的 R 包

    没有的包需要先用 BioManager::install() 命令安装。

    library(AnnotationHub) # help to build the annotation object

    library(biomaRt)

    library(GenomicFeatures)

    library(exomePeak2)

    library(rtracklayer)

    library(BSgenome)

    library(BSgenome.Zmays.Ensemble.zmv4) # import the Maize BSgenome data pacakage

    构建玉米的 TxDb object 数据。

    maize_txdb<- makeTxDbFromBiomart(biomart = "plants_mart",dataset = "zmays_eg_gene",host = "http://plants.ensembl.org")

    saveDb(maize_txdb, file="maize_v4.sqlite")

    maize_txdb <- loadDb("maize_v4.sqlite")

    运行 exomePeak2 函数

    exomePeak2(bam_ip = c("IP_1.bam","IP_2.bam"),

              bam_input = c("Input_1.bam","Input_2.bam"),

              txdb = maize_txdb,

              bsgenome = BSgenome.Zmays.Ensemble.zmv4,

              paired_end = TRUE)

    过程大概需要几个小时,视数据大小而定。结束后会自动生成输出文件夹 exomePeak2_output,也可通过参数 save_dir = "exomePeak2_output" 指定文件路径。

    相关文章

      网友评论

        本文标题:exomePeak2 使用笔记之自建 BSgenome Obje

        本文链接:https://www.haomeiwen.com/subject/zvauaktx.html