https://mp.weixin.qq.com/s/bCkZ4L9IJTJTFUWKJMsuFw
来自联川生物
什么是motif?
有特征的短序列,一般认为它是拥有生物学功能的保守序列,
并不局限于基因组DNA序列还是RNA序列,甚至蛋白质序列也可以提取出相应的motif
当某一个大类的序列中,大量重复出现相同的序列结构的时候,就可能存在探索它意义的价值
可能包含特异性的结合位点,或者是涉及某一个特定生物学过程的有共性的序列区段。
比如蛋白质的序列特异性结合位点,如核酸酶和转录因子。转录因子的结合位点,其motif往往意味着某蛋白结构域与DNA碱基序列的相互作用。
基于motif序列的提取,我们可以预测潜在的结合位点
什么是
domain?
Protein domain是一种结构实体,通常代表蛋白质结构中独立折叠和行使功能的一部分
motif的展示形式
a.logo展示图:这样的logo经常用于描述序列特征,如DNA中的蛋白质结合位点等。motif logo由每个位置的一堆字母组成。字母的相对大小表示它们在序列中的频率。每个字母的高度与该位置的相应碱基的出现频率成正比,常以bits为单位。每个位置的字母按照保守性从大到小排列,可以方便的从顶端的字母识别保守序列。
b.一致性序列:用一段序列来描述所有序列的碱基组成,称之为一致性序列。当一个位置涉及到多个碱基出现的时候,这里就涉及到简并碱基的使用。
c.PFM矩阵:(position frequency matrix),用于代表motif的碱基分布频数
和FASTA文件类似,有一个“>”开头的ID信息。下面的每一行分别代表4个碱基,每一列分别代表一个位置。矩阵信息的即表示A, C, G, T 4种碱基在每个位置的频数分布。
网友评论