损失函数推导公式以及如何推导
目录:
- 原因:为何要推导这些公式
- 举例:根据文章来说明这个推导的必要性
- 分析:如何推导添加用户相似度的公式
- 存在的问题
1. 原因
首先解释说一下原因,接着分析要如何推导加了用户相似度的两个矩阵的计算方式(待解决)。
- ALS 的修改模型不仅仅是输入一条损失函数的公式,然后输入数据就能直接跑起来模型的。
- 模型的更新是要根据损失函数修改推导后导出的公式来重新编写代码。
- 众所周知,ALS 是一个交替最小二乘法,需要先固定用户矩阵或者项目矩阵中的其中 1 个,然后计算另一个矩阵的,最终得到两个最优解矩阵。而如何计算另一个矩阵办法或者公式我们目前需要计算。
- 因此,我们要根据损失函数来推导出这两个矩阵(用户矩阵和项目矩阵),是如何在固定一个矩阵的情况下来计算更新另一个矩阵的。
- 以上就是我们需要从损失函数推导公式的原因。
接下来,按照知乎文章中的损失函数推导公式过程以及代码来举例说明整个过程
2. 举例说明
举例说明一下文章中的 ALS 算法的推导过程,和配套代码的含义
2.1 文章中的 ALS 损失函数
首先是损失函数,下面是知乎文章中的 ALS 模型的损失函数:
这个是损失函数。
2.2 推导的过程
由于 ALS 算法的流程是先固定 1 个矩阵,然后求另一个矩阵的。然而现在的问题是“不知道是如何计算另一个矩阵”,也就是不知道另一个矩阵的计算公式。因此我们需要来推导这个另一个矩阵的计算公式。
由损失函数推导出用户矩阵 和项目矩阵 的计算公式,那么推导的过程主要分 3 步:
- 对损失函数求 的一阶偏导数,得到结果如下:
- 然后再令一阶偏导数等于0 ,即等式左边项为 0 ,得到了用户矩阵 ,结果如下:
- 同理,可证得项目矩阵 的计算公式
2.3 推导的公式在代码上的应用
下面截取了 ALS 算法的代码中核心部分
- 含义
- 这段代码的内容是按照上面推导出来的、用来计算两个矩阵 U 和 I 的公式设计出来的。
- 作用
- 输入数据后通过调用该方法,最终计算得到 U 和 I 的两个矩阵。
for i in range(max_iter):
if i % 2:
# U = (I * I_transpose) ^ (-1) * I * R_transpose(需要修改以下函数)
items = self.item_matrix
self.user_matrix = self._items_mul_ratings(
items.mat_mul(items.transpose).inverse.mat_mul(items),
ratings
)
else:
# I = (U * U_transpose) ^ (-1) * U * R(需要修改以下函数)
users = self.user_matrix
self.item_matrix = self._users_mul_ratings(
users.mat_mul(users.transpose).inverse.mat_mul(users),
ratings_T
)
这两段代码是ALS中用户矩阵 和项目矩阵 ,默认情况下的计算公式(未优化前)。我们的工作是需要重新计算这个两个值。
3. 如何处理加了相似度的损失函数
为什么要重新计算呢?因为原有的损失函数更改了以下内容。
3.1 加了相似度的损失函数
首先需要先了解加了用户相似度的损失函数是怎样的。
加了相似度的损失函数如下,这是在论文中截取到的:
这个损失函数的参数解释如下:
- 其中 是正则化参数, 表示用户 与用户 之间的相似度, 表示用户的外向好友,即相似度较高的朋友。
3.2 推导步骤
这是原来的推导步骤,但我觉得圈出来的部分错了,我把圈出来的部分改为:
(6)3.3 推导过程参考文章
推导过程参考文章:
文章从下图开始详细介绍了 ALS 算法的推导过程
存在的问题
跑完代码后,发现加了相似度后,MSE提高了。
有可能有以下原因:
1.加了一些未知的矩阵的原因。因为跟一些其他的模型对比,我们不难发现ALS的跑出来的MSE比其他的模型高一点。因为ALS本身的原因。ALS是通过固定求出V,再固定V求出,不停的重复,直到收敛或达到最大迭代次数。而这些固定的矩阵因为都是未知,所以都是随机生成的。我觉得这可能就是ALS得出来的MSE比其他模型高的原因。
2.我们加了相似度后就不止两个未知矩阵了(加的方法是直接矩阵相加,公式6),每多出一个相似用户就会多出一个未知矩阵。假设我们选择5个最相似的用户和5个最不相似的用户,那么就会多出10个未知矩阵。为了求出V或者,对于这些多出来的矩阵,我们都是采用随机生成的方法。而这可能也是为什么加了相似度MSE会升高的原因。
网友评论