协同过滤基于用户对商品的评分或其他行为(如购买)模式来为用户提供个性化的推荐,而不需要了解用户或商品的大量信息。协同过滤的两种主要的技术:基于邻域的方法和隐语义模型。
将用户和物品交互作用无关的因子(偏置)封装到基准预测中。
![](https://img.haomeiwen.com/i11797539/2043ddadc51d2514.png)
最小二乘法估计bu和bi:
![](https://img.haomeiwen.com/i11797539/4e0d691b7cd1031f.png)
对每一个物品i:
![](https://img.haomeiwen.com/i11797539/22ac2bde9c82eb9f.png)
对每一个用户 u :
![](https://img.haomeiwen.com/i11797539/7094d9c46440f94c.png)
因子分解模型
--------------SVD
根据已有的评分情况,分析出评分者对各个因子的喜好程度以及电影包含各个因子的程度,最后根据分析结果预测评分。
![](https://img.haomeiwen.com/i11797539/17cf221b3a5f3542.png)
![](https://img.haomeiwen.com/i11797539/78a58de3a42efcdf.png)
--------------SVD++
隐式反馈信息可以增加预测准确度,提供用户爱好的额外指示。
![](https://img.haomeiwen.com/i11797539/e2f15a879827bae6.png)
--------------时间敏感的因子分解模型
![](https://img.haomeiwen.com/i11797539/6d57a18399ef0ce3.png)
基于邻域的模型
------------------相似度度量
一般情况下相似度度量是基于皮尔逊相关系数。
![](https://img.haomeiwen.com/i11797539/efd8c5a883ff7d02.png)
基于更大的用户支持的相关系数估计值更可靠:
![](https://img.haomeiwen.com/i11797539/2a3e9580c7346380.png)
------------------基于相似度的插值
![](https://img.haomeiwen.com/i11797539/fe4c7d4b3aa977ff.png)
---------------------联合派生插值权重
![](https://img.haomeiwen.com/i11797539/cd95247827ce2edd.png)
![](https://img.haomeiwen.com/i11797539/7f7904cfea26aaeb.png)
增强的基于邻域的模型
-----------全局化的邻域模型
(1)不依赖任意的或者启发式的基于物品的相似度。
(2)固有的防止过拟合和“风险控制”的能力
(3)可以捕获包含某个用户所有评分记录中弱信号的总量,不需要值关注最相似的物品的几条评分记录。
(4)允许整合不同形式的用户输入,如显示反馈和隐式反馈
(5)可以以线性时间复杂度和空间复杂度实现高扩展性
(6)数据随时间变化的特点能都整合到模型中,提高预测准确性
![](https://img.haomeiwen.com/i11797539/9bd5a288df1beddd.png)
----------因子分解的邻域模型
基于物品:
![](https://img.haomeiwen.com/i11797539/3a06d947c89034be.png)
基于用户:
![](https://img.haomeiwen.com/i11797539/802581a4c14e958f.png)
------------基于邻域的模型的动态时序
![](https://img.haomeiwen.com/i11797539/620df436864be981.png)
网友评论