motifmatchr的作用就是分析众多的序列和众多的motifs, 从中找到哪个序列包含哪个motif. 它的核心函数就是matchMotifs,最大特点就是快,因为它用的是MOODS C++库用于motif匹配。
尽管Bioconductor上也有很多工具能够做motif匹配,比如说Biostrings::mathcPWM, TFBSTools::searchSeq,但是motifmatchr更适合于分析许多不同的序列包含许多不同的motif。例如,当分析ChIP-seq或者ATAC-seq数据时, 你可能会想知道在哪个peak里有哪种类型的motif.
matchMotifs
motifmatchr的核心函数是matchMotifs,因此了解这个函数的输入数据是什么格式就行了。必须的两个输入是
位置权重矩阵(position weight matrices, PWM)或位置频率矩阵(position frequency matrices, PFM), 保存在PWMatrix, PFMatrix, PWMatrixList或PFMatrixList
一组基因组范围(GenomicRanges或RangedSUmmarizedExperiment对象)或一组序列(DNAStringSet, DNAString 或 简单的字符串向量)
MOODS
MOODS 是一套针对 DNA 序列匹配位置权矩阵(PWM)的算法,其特点是用 C + + 实现的高级矩阵匹配算法,可用于在几秒钟内针对染色体大小的序列扫描数百个矩阵。MOODS 的设计考虑到了与大型 Python 工作流的集成,但也可以用作独立的分析工具。
jhkorhonen/MOODS: MOODS: Motif Occurrence Detection Suite (github.com)
网友评论