Transcription Factor Binding Sites (TFBSs), 为一R包,可用于鉴定转录因子结合位点。具体可查看说明
安装所需包
BiocManager::install("TFBSTools")
BiocManager::install("JASPAR2018")
BiocManager::install("Biostrings")
所需数据
- 位置权重文件(position weight matrices, PWM)或位置频率矩阵(position frequency matrices, PFM) ),转录因子的结合序列
- 一段DNA序列,或者fasta格式序列
TFSTools与JASPAR2018交互获得PWM
JASPAR为一预测转录因子结合位点的在线网站。不过同样也存在R包。
我们可以从JASPAR2018中获取相应的PFM或者PWM文件,具体如下(拟南芥为例):
## 加载包
suppressMessages(library(JASPAR2014))
opts <- list()
opts[["species"]] <- 'Arabidopsis thaliana'
opts["collection"] <- 'CORE'
PFMatrixList <- getMatrixSet(JASPAR2018, opts)
## 也可将PFM转换为PWM
pwm <- toPWM(PFMatrixList)
上传DNA序列
事先截取基因上游(大概2-3K)序列,如果有一个基因则通过DNAString()即可读取,或多个基因,则准备fasta文件通过Biostrings::readDNAStringSet()读取,较为简单,不在叙述。
运行示例数据
## 加载包
library(Biostrings)
library(TFBSTools)
# 加载权重文件
data(MA0003.2)
pwm <- PWMatrixList(MA0003.2=toPWM(MA0003.2))
dna <- DNAString("GAATTCTCTCTTGTTGTAGTCTCTTGACAAAATG")
siteset <- searchSeq(pwm, dna, seqname="seq1", min.score="60%", strand="*")
## strand="*",对+/-链进行检测
结果查看
通过查看,并导出结果即可
head(writeGFF3(siteset))
#> seqname source feature start end score strand frame
#> 1 seq1 TFBS TFBS 8 13 -1.888154 + .
#> 2 seq1 TFBS TFBS 21 26 -1.888154 + .
#> 3 seq1 TFBS TFBS 29 34 -3.908935 + .
#> 4 seq1 TFBS TFBS 8 13 -1.961403 - .
#> 5 seq1 TFBS TFBS 10 15 -3.908935 - .
#> 6 seq1 TFBS TFBS 21 26 -1.961403 - .
#> attributes
#> 1 TF=Arnt;class=Zipper-Type;sequence=CTCTTG
#> 2 TF=Arnt;class=Zipper-Type;sequence=CTCTTG
#> 3 TF=Arnt;class=Zipper-Type;sequence=AAAATG
#> 4 TF=Arnt;class=Zipper-Type;sequence=CAAGAG
#> 5 TF=Arnt;class=Zipper-Type;sequence=AACAAG
#> 6 TF=Arnt;class=Zipper-Type;sequence=CAAGAG
结果中可以看到,序列的哪些位置有可能结合的转录因子。
网友评论