美文网首页
lncPro预测lncRNA与蛋白质互作强度

lncPro预测lncRNA与蛋白质互作强度

作者: 小潤澤 | 来源:发表于2021-05-23 00:31 被阅读0次

1. lncPro原理

参阅文献《Computational prediction of associations between long non-coding RNAs and proteins》

lncRNA常常被当作一种功能元件,lncRNA通过与结合蛋白互作来发挥其一定的生物学功能,所以lncPro的主要功能就是预测lncRNA与目标蛋白互作的得分,从而从生物信息学的角度判断lncRNA与protein是否有互作

lncPro的基本原理是将RNA sequence和protein sequence转换为数值型向量,并利用矩阵的乘法来计算RNA与蛋白质的得分
依据所计算的得分设定阈值,来判断RNA与蛋白质是否存在互作,在人类中发现lncRNA结合最多的是核蛋白和RBP

method:
第一步是训练数据,即要训练很多对的RNA和蛋白质序列对,lncRNA与蛋白质形成的复合物可以从PDB数据库里面下载,并且规定分子距离小于5 Å(Å为距离单位)的认为是有结合的

第二步,基于三个序列特征来描述lncRNA与蛋白质的结合得分:
首先是二级结构,对应RNA来说,利用Vienna包中的RNAsubopt来预测RNA的二级结构,而RNAsubopt会给出若干具有最低自由能的二级结构,然后lncPro将会把这些结果转换为数字特征向量
对于蛋白质序列,同样的道理,利用Predator来预测蛋白质的二级结构,然后lncPro将会把这些结果转换为数字特征向量

而另外两个特征分别是氢键和范德华力,对于RNA来说,作者选取了41种RNA-蛋白质复合物的嘌呤和嘧啶的信息,用于编码用于氢键和范德华相互作用的RNA数字特征向量
而对于蛋白质则是依据其序列特征按照Grantham’s propensities 和 Zimmerman’s propensities 标准编码为数字特征向量

总的特征选取图如下:


那么经过RNA和蛋白质转换为数字特征向量后,由于量纲的问题,需要做转换,作者采用傅里叶级数做变换:


其中:

  1. L表示特征向量的长度(元素个数)
  2. n表示特征向量里面的元素个数
  3. k表示当前仅使用傅里叶级数的前十项作为新的数字特征向量(傅里叶级数展开10项)
  4. Xn表示的是变换前的数字特征向量
  5. X'k表示转换后的数字特征向量,里面一共有10个元素

假设蛋白质的那三个特征对应的数字特征向量记为p1,p2,p3,RNA的那三个特征对应的数字特征向量记为r1,r2,r3,我们利用矩阵乘法来计算对应的得分:


而M矩阵是通过已知的lncRNA和蛋白质的复合物训练出来的

所计算的



即为最后lncRNA与蛋白质互作的得分

2. lncPro使用

正常我们打开其网站:http://bioinfo.bjmu.edu.cn/lncpro/,按照提示来即可

相关文章

网友评论

      本文标题:lncPro预测lncRNA与蛋白质互作强度

      本文链接:https://www.haomeiwen.com/subject/hixajltx.html