NLP第10课：动手实战基于 CNN 的电影推荐系统

作者: 米饭超人 | 来源:发表于2018-12-04 15:19 被阅读393次

NLP第10课：动手实战基于 CNN 的电影推荐系统
NLP第10课：动手实战基于 CNN 的电影推荐系统
第11课：动手实战基于 CNN 的电影推荐系统
卷积神经网络CNN的文本分类原理和实战
中文NLP笔记：8. 基于CNN的推荐系统
推荐系统实战第01课推荐系统简介
基于Spark的电影推荐系统（实战简介）
推荐系统实战第02课召回算法和业界最佳实践Part1
让机器“读懂”放射学报告
【线上直播】NLP技术在推荐系统中的应用

本文从深度学习卷积神经网络入手，基于 Github 的开源项目来完成 MovieLens 数据集的电影推荐系统。

什么是推荐系统呢？

什么是推荐系统呢？首先我们来看看几个常见的推荐场景。

如果你经常通过豆瓣电影评分来找电影，你会发现下图所示的推荐：

enter image description here

如果你喜欢购物，根据你的选择和购物行为，平台会给你推荐相似商品：

enter image description here

在互联网的很多场景下都可以看到推荐的影子。因为推荐可以帮助用户和商家满足不同的需求：

对用户而言：找到感兴趣的东西，帮助发现新鲜、有趣的事物。
对商家而言：提供个性化服务，提高信任度和粘性，增加营收。

常见的推荐系统主要包含两个方面的内容，基于用户的推荐系统（UserCF）和基于物品的推荐系统（ItemCF）。两者的区别在于，UserCF 给用户推荐那些和他有共同兴趣爱好的用户喜欢的商品，而 ItemCF 给用户推荐那些和他之前喜欢的商品类似的商品。这两种方式都会遭遇冷启动问题。

下面是 UserCF 和 ItemCF 的对比：

enter image description here

CNN 是如何应用在文本处理上的？

提到卷积神经网络（CNN），相信大部分人首先想到的是图像分类，比如 MNIST 手写体识别，CAFRI10 图像分类。CNN 已经在图像识别方面取得了较大的成果，随着近几年的不断发展，在文本处理领域，基于文本挖掘的文本卷积神经网络被证明是有效的。

首先，来看看 CNN 是如何应用到 NLP 中的，下面是一个简单的过程图：

enter image description here

和图像像素处理不一样，自然语言通常是一段文字，那么在特征矩阵中，矩阵的每一个行向量（比如 word2vec 或者 doc2vec）代表一个 Token，包括词或者字符。如果一段文字包含有 n 个词，每个词有 m 维的词向量，那么我们可以构造出一个 n*m 的词向量矩阵，在 NLP 处理过程中，让过滤器宽度和矩阵宽度保持一致整行滑动。

动手实战基于 CNN 的电影推荐系统

将 CNN 的技术应用到自然语言处理中并与电影推荐相结合，来训练一个基于文本的卷积神经网络，实现电影个性化推荐系统。

首先感谢作者 chengstone 的分享，源码请访问下面网址：

Github

在验证了 CNN 应用在自然语言处理上是有效的之后，从推荐系统的个性化推荐入手，在文本上，把 CNN 成果应用到电影的个性化推荐上。并在特征工程中，对训练集和测试集做了相应的特征处理，其中有部分字段是类型性变量，特征工程上可以采用 one-hot 编码，但是对于 UserID、MovieID 这样非常稀疏的变量，如果使用 one-hot，那么数据的维度会急剧膨胀，对于这份数据集来说是不合适的。

具体算法设计如下：

1. 定义用户嵌入矩阵。

用户的特征矩阵主要是通过用户信息嵌入网络来生成的，在预处理数据的时候，我们将 UserID、MovieID、性别、年龄、职业特征全部转成了数字类型，然后把这个数字当作嵌入矩阵的索引，在网络的第一层就使用嵌入层，这样数据输入的维度保持在（N，32）和（N，16）。然后进行全连接层，转成（N，128）的大小，再进行全连接层，转成（N，200）的大小，这样最后输出的用户特征维度相对比较高，也保证了能把每个用户所带有的特征充分携带并通过特征表达。

具体流程如下：

enter image description here

2. 生成用户特征。

生成用户特征是在用户嵌入矩阵网络输出结果的基础上，通过2层全连接层实现的。第一个全连接层把特征矩阵转成（N，128）的大小，再进行第二次全连接层，转成（N，200）的大小，这样最后输出的用户特征维度相对比较高，也保证了能把每个用户所带有的特征充分携带并通过特征表达。

具体流程如下：

enter image description here

3. 定义电影 ID 嵌入矩阵。

通过电影 ID 和电影类型分别生成电影 ID 和电影类型特征，电影类型的多个嵌入向量做加和输出。电影 ID 的实现过程和上面一样，但是对于电影类型的处理相较于上面，稍微复杂一点。因为电影类型有重叠性，一个电影可以属于多个类别，当把电影类型从嵌入矩阵索引出来之后是一个（N，32）形状的矩阵，因为有多个类别，这里采用的处理方式是矩阵求和，把类别加上去，变成（1，32）形状，这样使得电影的类别信息不会丢失。

具体流程如下：

enter image description here

4. 文本卷积神经网络设计。

文本卷积神经网络和单纯的 CNN 网络结构有点不同，因为自然语言通常是一段文字与图片像素组成的矩阵是不一样的。在电影文本特征矩阵中，矩阵的每一个行构成的行向量代表一个 Token，包括词或者字符。如果一段文字有 n 个词，每个词有 m 维的词向量，那么我们可以构造出一个 n*m 的矩阵。而且 NLP 处理过程中，会有多个不同大小的过滤器串行执行，且过滤器宽度和矩阵宽度保持一致，是整行滑动。在执行完卷积操作之后采用了 ReLU 激活函数，然后采用最大池化操作，最后通过全连接并 Dropout 操作和 Softmax 输出。这里电影名称的处理比较特殊，并没有采用循环神经网络，而采用的是文本在 CNN 网络上的应用。

对于电影数据集，我们对电影名称做 CNN 处理，其大致流程，从嵌入矩阵中得到电影名对应的各个单词的嵌入向量，由于电影名称比较特殊一点，名称长度有一定限制，这里过滤器大小使用时，就选择2、3、4、5长度。然后对文本嵌入层使用滑动2、3、4、5个单词尺寸的卷积核做卷积和最大池化，然后 Dropout 操作，全连接层输出。

具体流程如下：

enter image description here

具体过程描述：

（1）首先输入一个 32*32 的矩阵；

（2）第一次卷积核大小为 2*2，得到 31*31 的矩阵，然后通过 [1,14,1,1] 的 max-pooling 操作，得到的矩阵为 18*31；

（3）第二次卷积核大小为 3*3，得到 16*29的矩阵，然后通过[1,13,1,1] 的 max-pooling 操作，得到的矩阵为 4*29；

（4）第三次卷积核大小 4*4，得到 1*26 的矩阵，然后通过 [1,12,1,1] 的 max-pooling 操作，得到的矩阵为 1*26；

（5）第四次卷积核大小 5*5，得到 1*22 的矩阵，然后通过 [1,11,1,1] 的 max-pooling 操作，得到的矩阵为 1*22；

（6）最后通过 Dropout 和全连接层，len(window_sizes) * filter_num =32，得到 1*32的矩阵。

5. 电影各层做一个全连接层。

将上面几步生成的特征向量，通过2个全连接层连接在一起，第一个全连接层是电影 ID 特征和电影类型特征先全连接，之后再和 CNN 生成的电影名称特征全连接，生成最后的特征集。

具体流程如下：

enter image description here

6. 完整的基于 CNN 的电影推荐流程。

把以上实现的模块组合成整个算法，将网络模型作为回归问题进行训练，得到训练好的用户特征矩阵和电影特征矩阵进行推荐。

enter image description here

基于 CNN 的电影推荐系统代码调参过程

在训练过程中，我们需要对算法预先设置一些超参数，这里给出的最终的设置结果：

    # 设置迭代次数
    num_epochs = 5
    # 设置BatchSize大小
    batch_size = 256
    #设置dropout保留比例
    dropout_keep = 0.5
    # 设置学习率
    learning_rate = 0.0001
    # 设置每轮显示的batches大小
    show_every_n_batches = 20

首先对数据集进行划分，按照 4:1 的比例划分为训练集和测试集，下面给出的是算法模型最终训练集合测试集使用的划分结果：

    #将数据集分成训练集和测试集，随机种子不固定
    train_X,test_X, train_y, test_y = train_test_split(features,  
                                                 targets_values,  
                                                 test_size = 0.3,  
                                                 random_state = 0)

接下来是具体模型训练过程。训练过程，要不断调参，根据经验调参粒度可以选择从粗到细分阶段进行。

调参过程对比：

（1）第一步，先固定，learning_rate=0.01 和 num_epochs=10，测试 batch_size=128 对迭代时间和 Loss 的影响；

（2）第二步，先固定，learning_rate=0.01 和 num_epochs=10，测试 batch_size=256 对迭代时间和 Loss 的影响；

（3）第三步，先固定，learning_rate=0.01 和 num_epochs=10，测试 batch_size=512 对迭代时间和 Loss 的影响；

（4）第四步，先固定，learning_rate=0.01 和 num_epochs=5，测试 batch_size=128 对迭代时间和 Loss 的影响；

（5）第五步，先固定，learning_rate=0.01 和 num_epochs=5，测试 batch_size=256 对迭代时间和 Loss 的影响；

（6）第六步，先固定，learning_rate=0.01 和 num_epochs=5，测试 batch_size=512 对迭代时间和 Loss 的影响；

（7）第七步，先固定，batch_size=256 和 num_epochs=5，测试 learning_rate=0.001 对 Loss 的影响；

（8）第八步，先固定，batch_size=256 和 num_epochs=5，测试 learning_rate=0.0005 对 Loss 的影响；

（9）第九步，先固定，batch_size=256 和 num_epochs=5，测试 learning_rate=0.0001 对 Loss 的影响；

（10）第十步，先固定，batch_size=256 和 num_epochs=5，测试 learning_rate=0.00005 对 Loss 的影响。

得到的调参结果对比表如下：

enter image description here

通过上面（1）-（6）步调参比较，在 learning_rate、batch_size 相同的情况下，num_epochs对于训练时间影响较大；而在 learning_rate、num_epochs 相同情况下，batch_size 对 Loss 的影响较大，batch_size 选择512，Loss 有抖动情况，权衡之下，最终确定后续调参固定采用 batch_size=256、num_epochs=5 的超参数值，后续（7）-（10）步，随着 learning_rate 逐渐减小，发现 Loss 是先逐渐减小，而在 learning_rate=0.00005 时反而增大，最终选择出学习率为 learning_rate=0.0001 的超参数值。

基于 CNN 的电影推荐系统电影推荐

在上面，完成模型训练验证之后，实际来进行推荐电影，这里使用生产的用户特征矩阵和电影特征矩阵做电影推荐，主要有三种方式的推荐。

1. 推荐同类型的电影。

思路是：计算当前看的电影特征向量与整个电影特征矩阵的余弦相似度，取相似度最大的 top_k 个，这里加了些随机选择在里面，保证每次的推荐稍稍有些不同。

    def recommend_same_type_movie(movie_id_val, top_k = 20):

        loaded_graph = tf.Graph()  #
        with tf.Session(graph=loaded_graph) as sess:  #
            # Load saved model
            loader = tf.train.import_meta_graph(load_dir + '.meta')
            loader.restore(sess, load_dir)

            norm_movie_matrics = tf.sqrt(tf.reduce_sum(tf.square(movie_matrics), 1, keep_dims=True))
            normalized_movie_matrics = movie_matrics / norm_movie_matrics

            #推荐同类型的电影
            probs_embeddings = (movie_matrics[movieid2idx[movie_id_val]]).reshape([1, 200])
            probs_similarity = tf.matmul(probs_embeddings, tf.transpose(normalized_movie_matrics))
            sim = (probs_similarity.eval())
            print("您看的电影是：{}".format(movies_orig[movieid2idx[movie_id_val]]))
            print("以下是给您的推荐：")
            p = np.squeeze(sim)
            p[np.argsort(p)[:-top_k]] = 0
            p = p / np.sum(p)
            results = set()
            while len(results) != 5:
                c = np.random.choice(3883, 1, p=p)[0]
                results.add(c)
            for val in (results):
                print(val)
                print(movies_orig[val])
            return result

推荐您喜欢的电影。

思路是：使用用户特征向量与电影特征矩阵计算所有电影的评分，取评分最高的 top_k 个，同样加了些随机选择部分。

    def recommend_your_favorite_movie(user_id_val, top_k = 10):

        loaded_graph = tf.Graph()  #
        with tf.Session(graph=loaded_graph) as sess:  #
            # Load saved model
            loader = tf.train.import_meta_graph(load_dir + '.meta')
            loader.restore(sess, load_dir)

            #推荐您喜欢的电影
            probs_embeddings = (users_matrics[user_id_val-1]).reshape([1, 200])
            probs_similarity = tf.matmul(probs_embeddings, tf.transpose(movie_matrics))
            sim = (probs_similarity.eval())

            print("以下是给您的推荐：")
            p = np.squeeze(sim)
            p[np.argsort(p)[:-top_k]] = 0
            p = p / np.sum(p)
            results = set()
            while len(results) != 5:
                c = np.random.choice(3883, 1, p=p)[0]
                results.add(c)
            for val in (results):
                print(val)
                print(movies_orig[val])

            return results

看过这个电影的人还看了（喜欢）哪些电影。

（1）首先选出喜欢某个电影的 top_k 个人，得到这几个人的用户特征向量；

（2）然后计算这几个人对所有电影的评分；

（3）选择每个人评分最高的电影作为推荐；

（4）同样加入了随机选择。

    def recommend_other_favorite_movie(movie_id_val, top_k = 20):
        loaded_graph = tf.Graph()  #
        with tf.Session(graph=loaded_graph) as sess:  #
            # Load saved model
            loader = tf.train.import_meta_graph(load_dir + '.meta')
            loader.restore(sess, load_dir)
            probs_movie_embeddings = (movie_matrics[movieid2idx[movie_id_val]]).reshape([1, 200])
            probs_user_favorite_similarity = tf.matmul(probs_movie_embeddings, tf.transpose(users_matrics))
            favorite_user_id = np.argsort(probs_user_favorite_similarity.eval())[0][-top_k:]

            print("您看的电影是：{}".format(movies_orig[movieid2idx[movie_id_val]]))

            print("喜欢看这个电影的人是：{}".format(users_orig[favorite_user_id-1]))
            probs_users_embeddings = (users_matrics[favorite_user_id-1]).reshape([-1, 200])
            probs_similarity = tf.matmul(probs_users_embeddings, tf.transpose(movie_matrics))
            sim = (probs_similarity.eval())
            p = np.argmax(sim, 1)
            print("喜欢看这个电影的人还喜欢看：")
            results = set()
            while len(results) != 5:
                c = p[random.randrange(top_k)]
                results.add(c)
            for val in (results):
                print(val)
                print(movies_orig[val])
            return results

基于 CNN 的电影推荐系统不足

这里讨论一下基于上述方法所带来的不足：

由于一个新的用户在刚开始的时候并没有任何行为记录，所以系统会出现冷启动的问题；
由于神经网络是一个黑盒子过程，我们并不清楚在反向传播的过程中的具体细节，也不知道每一个卷积层抽取的特征细节，所以此算法缺乏一定的可解释性；
一般来说，在工业界，用户的数据量是海量的，而卷积神经网络又要耗费大量的计算资源，所以进行集群计算是非常重要的。但是由于本课程所做实验环境有限，还是在单机上运行，所以后期可以考虑在服务器集群上全量跑数据，这样获得的结果也更准确。

总结

上面通过 Github 上一个开源的项目，梳理了 CNN 在文本推荐上的应用，并通过模型训练调参，给出一般的模型调参思路，最后建议大家自己把源码下载下来跑跑模型，效果更好。

参考文献及推荐阅读

推荐系统
Deep Convolutional Neural Networks for Sentiment Analysis of ShortTexts,CND Santos ,M Gattit ,2014.
推荐系统实践，p50-60，p120-130，项亮。

NLP第10课：动手实战基于 CNN 的电影推荐系统
本文从深度学习卷积神经网络入手，基于 Github 的开源项目来完成 MovieLens 数据集的电影推荐系统。 ...
NLP第10课：动手实战基于 CNN 的电影推荐系统
本文从深度学习卷积神经网络入手，基于 Github 的开源项目来完成 MovieLens 数据集的电影推荐系统。 ...
第11课：动手实战基于 CNN 的电影推荐系统
本文从深度学习卷积神经网络入手，基于 Github 的开源项目来完成 MovieLens 数据集的电影推荐系统。 ...
卷积神经网络CNN的文本分类原理和实战
基于卷积神经网络CNN的文本分类原理和实战前言本文介绍了CNN在NLP中的应用：文本分类。文本分类：是自然语...
中文NLP笔记：8. 基于CNN的推荐系统
推荐系统推荐系统用途对用户而言：可以找到感兴趣的东西，发现新鲜的事物。对商家而言：可以提供个性化...
推荐系统实战第01课推荐系统简介
@[toc](推荐系统实战第01课推荐系统简介) 推荐系统介绍（what why where） Industri...
基于Spark的电影推荐系统（实战简介）
## 写在前面一直不知道这个专栏该如何开始写，思来想去，还是暂时把自己对这个项目的一些想法和大家分享的形式来...
推荐系统实战第02课召回算法和业界最佳实践Part1
@toc 推荐系统实战第02课. Match Algorithms and Practices (Part 1) ...
让机器“读懂”放射学报告
摘要：利用基于规则的NLP系统让机器"读懂"放射学报告，准确率比基于机器学习的NLP系统要高。在Qure，我们建...
【线上直播】NLP技术在推荐系统中的应用
分享主题：NLP技术在推荐系统中的应用分享嘉宾：Henry 报名链接：NLP技术在推荐系统中的应用师资简介： ...