1. lncPro原理
参阅文献《Computational prediction of associations between long non-coding RNAs and proteins》
lncRNA常常被当作一种功能元件,lncRNA通过与结合蛋白互作来发挥其一定的生物学功能,所以lncPro的主要功能就是预测lncRNA与目标蛋白互作的得分,从而从生物信息学的角度判断lncRNA与protein是否有互作
lncPro的基本原理是将RNA sequence和protein sequence转换为数值型向量,并利用矩阵的乘法来计算RNA与蛋白质的得分
依据所计算的得分设定阈值,来判断RNA与蛋白质是否存在互作,在人类中发现lncRNA结合最多的是核蛋白和RBP
method:
第一步是训练数据,即要训练很多对的RNA和蛋白质序列对,lncRNA与蛋白质形成的复合物可以从PDB数据库里面下载,并且规定分子距离小于5 Å(Å为距离单位)的认为是有结合的
第二步,基于三个序列特征来描述lncRNA与蛋白质的结合得分:
首先是二级结构,对应RNA来说,利用Vienna包中的RNAsubopt来预测RNA的二级结构,而RNAsubopt会给出若干具有最低自由能的二级结构,然后lncPro将会把这些结果转换为数字特征向量
对于蛋白质序列,同样的道理,利用Predator来预测蛋白质的二级结构,然后lncPro将会把这些结果转换为数字特征向量
而另外两个特征分别是氢键和范德华力,对于RNA来说,作者选取了41种RNA-蛋白质复合物的嘌呤和嘧啶的信息,用于编码用于氢键和范德华相互作用的RNA数字特征向量
而对于蛋白质则是依据其序列特征按照Grantham’s propensities 和 Zimmerman’s propensities 标准编码为数字特征向量
总的特征选取图如下:
![](https://img.haomeiwen.com/i19396348/b6fc1dd8eb483337.png)
那么经过RNA和蛋白质转换为数字特征向量后,由于量纲的问题,需要做转换,作者采用傅里叶级数做变换:
![](https://img.haomeiwen.com/i19396348/04764ee82ae27ae4.png)
其中:
- L表示特征向量的长度(元素个数)
- n表示特征向量里面的元素个数
- k表示当前仅使用傅里叶级数的前十项作为新的数字特征向量(傅里叶级数展开10项)
- Xn表示的是变换前的数字特征向量
- X'k表示转换后的数字特征向量,里面一共有10个元素
假设蛋白质的那三个特征对应的数字特征向量记为p1,p2,p3,RNA的那三个特征对应的数字特征向量记为r1,r2,r3,我们利用矩阵乘法来计算对应的得分:
![](https://img.haomeiwen.com/i19396348/a1d6992476814647.png)
而M矩阵是通过已知的lncRNA和蛋白质的复合物训练出来的
所计算的
![](https://img.haomeiwen.com/i19396348/57aef4818b384cab.png)
即为最后lncRNA与蛋白质互作的得分
2. lncPro使用
正常我们打开其网站:http://bioinfo.bjmu.edu.cn/lncpro/,按照提示来即可
网友评论