pyspark案例系列11-ALS推荐算法

作者: 只是甲 | 来源:发表于2022-06-16 08:59 被阅读0次

pyspark案例系列11-ALS推荐算法
pyspark案例系列9-好友推荐实战
学习笔记：《推荐算法——产品和内容推荐》
pyspark
2020-06-24 暑假计划
pyspark案例系列10-java.lang.ClassNot
Pyspark实现KMeans机器学习聚类算法（一）
推荐系统系列之基于物品内容的推荐
【修真院PM小课堂】算法
Spark Python API Docs(part one)

一. 需求

近期朋友问我spark的推荐算法相关的。

二. 解决方案

因为之前没有接触过推荐算法相关，所以我在spark的官网上找了下，结果找到一个非常nice的案例。
https://spark.apache.org/docs/2.4.7/ml-collaborative-filtering.html

2.1 Spark官网demo

2.1.1 协同过滤

协同过滤通常用于推荐系统。这些技术旨在填补用户-项目关联矩阵中缺失的条目。Spark.ML 目前支持基于模型的协同过滤，其中用户和产品由一组潜在因素描述，可用于预测缺失条目 Spark.ML 使用交替最小二乘(ALS)算法来学习这些潜在因子。spark中的实现。Ml有以下参数:

numBlocks是将用户和条目划分为并行计算的块的数量(默认为10)。
Rank是模型中潜在因子的数量(默认为10)。
maxIter是要运行的最大迭代次数(默认为10)。
regParam指定ALS中的正则化参数(默认为1.0)。
implicitPrefs指定是使用显式反馈ALS变体还是适合隐式反馈数据的变体(默认为false，这意味着使用显式反馈)。
alpha是一个适用于ALS隐式反馈变体的参数，它控制着偏好观察的基线置信度(默认为1.0)。
Nonnegative指定是否对最小二乘使用非负约束(默认为false)。

注意:
ALS的基于数据框架的API目前只支持用户id和条目id的整数。用户和项目id列也支持其他数字类型，但是id必须在整数值范围内。

2.1.2 显性和隐性反馈

基于矩阵分解的协同过滤的标准方法将用户-物品矩阵中的条目视为用户给物品的显式偏好，例如，用户给电影打分。

在许多现实世界的用例中，只有隐式反馈(如浏览、点击、购买、喜欢、分享等)是很常见的。spark中使用的方法。用于处理此类数据的ml取自隐式反馈数据集协同过滤。从本质上来说，这种方法并不是直接模拟评级矩阵，而是将数据视为代表用户行为观察强度的数字(如点击次数，或某人观看电影的累计时长)。然后，这些数字与观察到的用户偏好的信心水平相关，而不是明确的给商品评级。然后，该模型试图找到潜在的因素，可以用来预测用户对某项商品的预期偏好。

2.1.3 正则化参数的缩放

在解决每个最小二乘问题时，我们将正则化参数regParam缩放为用户在更新用户因子中生成的评级数量，或产品在更新产品因子中收到的评级数量。这种方法被命名为“ALS-WR”，并在《Netflix奖的大规模并行协同过滤》一文中进行了讨论。它减少了regParam对数据集规模的依赖，因此我们可以将从采样子集学到的最佳参数应用到整个数据集，并期望类似的性能。

2.1.4 本身的策略

当使用ALSModel进行预测时，通常会遇到测试数据集中在训练模型期间不存在的用户和/或项。这通常发生在两种情况下:

在生产中，对于新用户或没有评级历史且模型没有经过训练的项目(这就是“冷启动问题”)。
在交叉验证期间，数据在训练集和评估集之间分割。在Spark的CrossValidator或TrainValidationSplit中使用简单的随机分割时，经常会遇到评估集中的用户和/或项目不在训练集中的情况

默认情况下，Spark在ALSModel期间分配NaN预测。当模型中不存在用户和/或项因素时进行转换。这在生产系统中可能很有用，因为它指示了一个新用户或项，因此系统可以决定使用某些回退作为预测。

然而，这在交叉验证期间是不希望的，因为任何NaN预测值都会导致评估度量的NaN结果(例如使用RegressionEvaluator时)。这使得模型选择变得不可能。

Spark允许用户将coldStartStrategy参数设置为“drop”，以便删除DataFrame中任何包含NaN值的预测行。评估指标将在非nan数据上计算，并且是有效的。下面的示例说明了该参数的用法。

注意:
目前支持的冷启动策略是" nan "(上面提到的默认行为)和" drop "。未来可能会支持进一步的策略。

2.1.5 Python代码

在下面的示例中，我们从MovieLens数据集中加载评级数据，每行包含一个用户、一个电影、一个评级和一个时间戳。然后我们训练一个ALS模型，该模型默认情况下假设评分是显式的(implicitPrefs为False)。我们通过测量评级预测的均方根误差来评估推荐模型。

from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.recommendation import ALS
from pyspark.sql import Row

lines = spark.read.text("data/mllib/als/sample_movielens_ratings.txt").rdd
parts = lines.map(lambda row: row.value.split("::"))
ratingsRDD = parts.map(lambda p: Row(userId=int(p[0]), movieId=int(p[1]),
                                     rating=float(p[2]), timestamp=long(p[3])))
ratings = spark.createDataFrame(ratingsRDD)
(training, test) = ratings.randomSplit([0.8, 0.2])

# Build the recommendation model using ALS on the training data
# Note we set cold start strategy to 'drop' to ensure we don't get NaN evaluation metrics
als = ALS(maxIter=5, regParam=0.01, userCol="userId", itemCol="movieId", ratingCol="rating",
          coldStartStrategy="drop")
model = als.fit(training)

# Evaluate the model by computing the RMSE on the test data
predictions = model.transform(test)
evaluator = RegressionEvaluator(metricName="rmse", labelCol="rating",
                                predictionCol="prediction")
rmse = evaluator.evaluate(predictions)
print("Root-mean-square error = " + str(rmse))

# Generate top 10 movie recommendations for each user
userRecs = model.recommendForAllUsers(10)
# Generate top 10 user recommendations for each movie
movieRecs = model.recommendForAllItems(10)

# Generate top 10 movie recommendations for a specified set of users
users = ratings.select(als.getUserCol()).distinct().limit(3)
userSubsetRecs = model.recommendForUserSubset(users, 10)
# Generate top 10 user recommendations for a specified set of movies
movies = ratings.select(als.getItemCol()).distinct().limit(3)
movieSubSetRecs = model.recommendForItemSubset(movies, 10)

2.2 ALS算法简要解释

ALS是交替最小二乘（alternating least squares）的简称。在机器学习的范畴中，ALS特指使用交替最小二乘求解的一个协同推荐算法。它通过观察到的所有用户给产品的打分，来推断每个用户的喜好并向用户推荐适合的产品。不过ALS无法准确评估新加入的用户或商品。这个问题也被称为Cold Start问题。

2.2.1 举例

ALS推荐算法是基于矩形分解的一种方法。先看看矩阵分解的含义。

我们拿电影推荐作为例子。推荐所使用的数据可以抽象成一个[m,n]的矩阵R，R的每一行代表m个用户对所有电影的评分，n列代表每部电影对应的得分。R是个稀疏矩阵，一个用户只是对所有电影中的一小部分看过，有评分。通过矩阵分解方法，我可以把这个低秩的矩阵，分解成两个小矩阵的点乘。公式如下：

image.png

矩阵R（评分为1、2、3、4、5）：

image.png

我把矩阵分解之后，就变成了下面两个小矩阵（F是隐藏特征）：

image.png

用户的特征

image.png

电影的特征：

分解之后的矩阵，变成了根据特征数决定维数的向量。这种求出的向量作为用户的特征，用在推荐上，被成为隐藏特征或者隐藏因子。
为什么进行矩阵分解呢？因为推荐使用的矩阵不仅是稀疏的而且往往是低秩的。矩阵分解相当于进行了特征提取或者数据的降维。
为了求出两个分解后的矩阵，我可以产生两个维度一样的随机矩阵U和V，点乘之后得到同样m行n列的矩阵R1. 这一步我已经得到两个[m,n]的矩阵，其中一个是反映用户的真实喜好的数据，矩阵R。另一份只是一个近似数据，矩阵R1。我可以找到一个公式来衡量，两个同阶的矩阵的相似程度：

image.png

这是一个损失函数，我的目的就是让这个函数的值最小化，使得我构造的矩阵能够最接近原始矩阵。

2.2.2 ALS算法参数

关键代码(Java)：

MatrixFactorizationModel model = ALS.train(ratings, rank, iterations,lambda);

解释：

ratings：训练集，数据格式：（用户id 物品id 评分）
rank：矩阵分解时对应的低维的维数，即特征向量维数或者说特征数。如果这个值太小拟合的就会不够，误差就很大；如果这个值很大，就会导致模型大泛化能力较差。这个值会影响矩阵分解的性能，越大则算法运行的时间和占用的内存可能会越多。通常需要进行调参，一般可以取10-200之间的数。
iterations：在矩阵分解用交替最小二乘法求解时，进行迭代的最大次数。这个值取决于评分矩阵的维度，以及评分矩阵的系数程度。一般来说，不需要太大，比如5-20次即可。
lambda：正则因子。lambda也是和rank一样的，如果设置很大就可以防止过拟合问题，如果设置很小，其实可以理解为直接设置为0，那么就不会有防止过拟合的功能了；怎么设置呢？可以从0.0001 ，0.0003，0.001，0.003，0.01，0.03，0.1，0.3，1，3，10这样每次大概3倍的设置，先大概看下哪个值效果比较好，然后在那个比较好的值（比如说0.01）前后再设置一个范围，比如（0.003，0.3）之间，间隔设置小点，即0.003，0.005，0.007，0.009，0.011等等等。

调优:
需要引入均方根误差（RMSE）：均方根误差是用来衡量观测值同真值之间的偏差。

用途：
预测评分和推荐物品或者用户等。

1）预测用户对物品的评分

predict(int user, int product)

2）预测用户集对物品集的评分

predict(JavaPairRDD<Integer, Integer> usersProducts)

3）推荐用户k个物品

recommendProducts(final int user, int num)

4）对物品推荐k个用户

recommendUsers(final int product, int num)

5）对所有用户推荐物品，物品数量取前k个

recommendProductsForUsers(int num)

6）对所有物品推荐用户，用户数量取前k个

recommendUsersForProducts(int num)

参考:

pyspark案例系列11-ALS推荐算法
一. 需求近期朋友问我spark的推荐算法相关的。二. 解决方案因为之前没有接触过推荐算法相关，所以我在sp...
pyspark案例系列9-好友推荐实战
一. 需求今天接单了一个学生的课程左右辅导，辅导内容是通过Spark实现好友推荐。文件格式: 二. 解决方案 ...
学习笔记：《推荐算法——产品和内容推荐》
这节课是尹相志老师《数据科学心法与机器学习实战》系列课程的最后一讲：《数据科学实务案例：推荐算法的案例建模与评估》...
pyspark
pyspark系列--日期函数 https://blog.csdn.net/suzyu12345/article/...
2020-06-24 暑假计划
科研项目 GNN + 推荐系统（算法+工程）实验楼：电影推荐系统大数据实训案例：电影推荐系统视频吴恩达...
pyspark案例系列10-java.lang.ClassNot
一. 需求今天在spark集群上运行一个任务，报如下错误:java.lang.ClassNotFoundExce...
Pyspark实现KMeans机器学习聚类算法（一）
Pyspark实现KMeans机器学习聚类算法（一）环境配置：spark 2.1.1python 3.5.2IP...
推荐系统系列之基于物品内容的推荐
承接前两篇《推荐系统系列之初识》及《推荐系统系列之基于人口统计学的推荐》一、基本思想基于物品内容的推荐算法仅利...
【修真院PM小课堂】算法
算法分享人：刘伟目录一.推荐概述二.好的产品推荐三.几大挑战（用户物品系统冷启动）四.案例一.推...
Spark Python API Docs(part one)
pyspark package subpackages pyspark.sql module pyspark.st...

pyspark案例系列11-ALS推荐算法

一. 需求

二. 解决方案

2.1 Spark官网demo

2.1.1 协同过滤

2.1.2 显性和隐性反馈

2.1.3 正则化参数的缩放

2.1.4 本身的策略

2.1.5 Python代码

2.2 ALS算法简要解释

2.2.1 举例

2.2.2 ALS算法参数

参考:

相关文章

pyspark案例系列11-ALS推荐算法

pyspark案例系列9-好友推荐实战

学习笔记：《推荐算法——产品和内容推荐》

pyspark

2020-06-24 暑假计划

pyspark案例系列10-java.lang.ClassNot

Pyspark实现KMeans机器学习聚类算法（一）

推荐系统系列之基于物品内容的推荐

【修真院PM小课堂】算法

Spark Python API Docs(part one)

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读