推荐算法——潜在因子(Latent Factor)算法

作者: JasionDai | 来源:发表于2018-03-07 18:05 被阅读335次

推荐算法——潜在因子(Latent Factor)算法
隐语义模型与推荐算法
第十章数据推荐算法——基于潜在因子算法的推荐
隐语义模型与推荐算法
矩阵分解与FM
LFM——潜在因素模型
异常检测之LOF算法
异常点/离群点检测算法——LOF
推荐算法之—FM
LFM(Latent factor model)隐语义模型算法原

应用领域：“网易云音乐歌单个性化推荐”、“豆瓣电台音乐推荐”等。

这种算法是在NetFlix（没错，就是用大数据捧火《纸牌屋》的那家公司）的推荐算法竞赛中获奖的算法，最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的@邰原朗所介绍的算法误差（RMSE）会小不少，效率更高。我下面仅利用基础的矩阵知识来介绍下这种算法。

这种算法的思想是这样：每个用户（user）都有自己的偏好，比如A喜欢带有小清新的、吉他伴奏的、王菲等元素（latent factor），如果一首歌（item）带有这些元素，那么就将这首歌推荐给该用户，也就是用元素去连接用户和音乐。每个人对不同的元素偏好不同，而每首歌包含的元素也不一样。我们希望能找到这样两个矩阵：

一，用户-潜在因子矩阵Q，表示不同的用户对于不用元素的偏好程度，1代表很喜欢，0代表不喜欢。比如下面这样：

二，潜在因子-音乐矩阵P，表示每种音乐含有各种元素的成分，比如下表中，音乐A是一个偏小清新的音乐，含有小清新这个Latent Factor的成分是0.9，重口味的成分是0.1，优雅的成分是0.2……

利用这两个矩阵，我们能得出张三对音乐A的喜欢程度是：张三对小清新的偏好*音乐A含有小清新的成分+对重口味的偏好*音乐A含有重口味的成分+对优雅的偏好*音乐A含有优雅的成分+……

即：0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.69

每个用户对每首歌都这样计算可以得到不同用户对不同歌曲的评分矩阵

。（注，这里的破浪线表示的是估计的评分，接下来我们还会用到不带波浪线的R表示实际的评分）：

因此我们队张三推荐四首歌中得分最高的B，对李四推荐得分最高的C，王五推荐B。

如果用矩阵表示即为：

下面问题来了，这个潜在因子（latent factor）是怎么得到的呢？

由于面对海量的让用户自己给音乐分类并告诉我们自己的偏好系数显然是不现实的，事实上我们能获得的数据只有用户行为数据。我们沿用@邰原朗的量化标准：单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-2 , 拉黑=-5，在分析时能获得的实际评分矩阵R，也就是输入矩阵大概是这个样子：