应用：能够快速实现的协同推荐

作者: slade_sal | 来源:发表于2017-09-20 17:03 被阅读76次

应用：能够快速实现的协同推荐
基于协同过滤算法的推荐系统
octave实现协同过滤推荐算法
octave实现协同过滤推荐算法
SVD 代码实践
协同过滤（网新关键词）
网新关键词之协同过滤
（241天）杰克·韦尔奇：一次人事变动比100次讲话更有效
低代码开发平台，API集成开发一体化
几维安全携手苏宁易购，创造企业安全建设新模式

对于中小型的公司，用户的数据量及公司产品的个数都是较小规模的，需要提供给用户的推荐系统实现的重心也从人性化变成了实现成本，协同推荐就是非常常见、有效且可以快速实现的方法，也是本文想介绍的。

常规的快速简单推荐系统实现方法不排除以下几种：

热门推荐
所有人打开浏览的内容都一致，惊喜性会有所缺失，但是实现特别简单，稍加逻辑带给用户的体验感满足了基本需求。
SVD+推荐
之前也讨论过实现方法了，附上链接：SVD及扩展的矩阵分解方法
基于模型推荐
这个比较偏向业务场景，可以说是经典的场景化模型，之前写过一篇基于用户特征的偏好推荐，可以参考一下：苏宁易购的用户交叉推荐
协同推荐
这个也是几乎每个公司都会用的，也是非常非常常见有效的算法之一

协同推荐介绍
首先，我们先来了解一下什么叫做协同推荐。
基于用户的协同过滤推荐算法是最早诞生的，1992年提出并用于邮件过滤系统，两年后1994年被 GroupLens 用于新闻过滤。一直到2000年左右，该算法都是推荐系统领域最著名的算法。算是非常古董级别的算法之一了，但是古董归古董，它的效果以及实现的成本却奠定了它在每个公司不可取代的地位。

基于用户的协同推荐

用户u1喜欢的电影是A，B，C
用户u2喜欢的电影是A, C, E, F
用户u3喜欢的电影是B，D

假设u1、u2、u3用户喜欢的电影分布如上，基于用户的协同推荐干了这么一件事情，它根据每个用户看的电影（A、B、C、...）相似程度，来计算用户之间的相似程度，将高相似的用户看过但是目标用户还没有看过的电影推荐给目标用户。

基于商品的协同推荐

电影A被u1，u2看过
电影B被u1，u3看过
电影C被u1，u2看过
电影D被u3看过
电影E被u2看过
电影F被u2看过

假设A～F电影被用户观影的分布如上，基于商品的协同推荐干了这么一件事情，它根据电影（A、B、C、...）被不同用户观看相似程度，来计算电影之间的相似程度，根据目标用户看过的电影的高相似度的电影推荐给目标用户。

看起来以上的逻辑是非常简单的，其实本来也是非常简单的，我看了下，网上关于以上的代码实现还是比较林散和有问题的，优化了python版本的code，并详细解释了每一步，希望，对初学者有所帮助。

#time  2017-09-17
#author：shataowei
#based-item

#所要的基础包比较简单
from collections import defaultdict
import math
import time
startTime = time.time()

#读取数据的过程
#/Users/slade/Desktop/machine learning/data/recommender/u1.base
def readdata(location):
    list2item = {}  #商品对应的用户列表(1:[[1,2],[2,3]]代表商品1对应用户1的行为程度为2,商品1对应的用户2的行为程度为3)
    list2user = {}  #用户对应的商品列表(1:[[1,2],[2,3]]代表用户1对应商品1的行为程度为2,用户1对应的商品2的行为程度为3)
    f = open(location,'r')
    data = f.readlines()
    data = [x.split('\t') for x in data] 
    f.close()

    for i in data:
        if int(i[1]) not in list2item.keys():
            list2item[int(i[1])] = [[int(i[0]),int(i[2])]]
        else:
            list2item[int(i[1])].append([int(i[0]),int(i[2])])

        if int(i[0]) not in list2user.keys():
            list2user[int(i[0])] = [[int(i[1]),int(i[2])]]
        else:
            list2user[int(i[0])].append([int(i[1]),int(i[2])])
    return list2item,list2user
#list2item,list2user=readdata('/Users/slade/Desktop/machine learning/data/recommender/u1.base')

#基于item的协同推荐
#0.将用户行为程度离散化：浏览：1，搜索：2，收藏：3，加车：4，下单未支付5
#1.计算item之间的相似度：item共同观看次数/单item次数连乘
#2.寻找目标用户观看过的item相关的其他item列表
#3.计算其他item的得分：相似度*用户行为程度，求和

#0 hive操作

#1.1统计各商品出现次数
def itemcf_itemall(userlist = list2user):
    I={}
    for key in userlist:
        for item in userlist[key]:
            if item[0] not in I.keys():
                I[item[0]] = 0
            I[item[0]] = I[item[0]] + 1
    return I

#1.2计算相似矩阵
def itemcf_matrix(userlist = list2user):
    C=defaultdict(defaultdict) 
    W=defaultdict(defaultdict)   
#根据用户的已购商品来形成对应相似度矩阵 
    for key in userlist:
        for item1 in userlist[key]:
            for item2 in userlist[key]:
                if item1[0] == item2[0]:
                    continue
                if item2 not in C[item1[0]].keys():
                    C[item1[0]][item2[0]] = 0
                C[item1[0]][item2[0]] = C[item1[0]][item2[0]] + 1
#计算相似度，并填充上面对应的相似度矩阵
    for i , j in C.items():
        for z , k in j.items():
            W[i][z] = k/math.sqrt(I[i]*I[z])
#k/math.sqrt(I[i]*I[z])计算相似度，其中k为不同商品交集，sqrt(I[i]*I[z])用来压缩那些热门商品必然有高交集的问题
    return W        

#2.寻找用户观看的其他item
def recommendation(userid,k):
    score_final = defaultdict(int)
    useriditem = []
    for item,score in list2user[userid]: 
#3.计算用户的item得分，k来控制用多少个相似商品来计算最后的推荐商品        
        for i , smimilarity in sorted(W[item].items() , key = lambda x:x[1] ,reverse =True)[0:k]:
            for j in list2user[userid]:
                useriditem.append(j[0])
            if i not in useriditem:
                score_final[i] = score_final[i] + smimilarity * score
#累加每一个商品用户的评分与其它商品的相似度积的和作为衡量
#最后的10控制输出多少个推荐商品
    l = sorted(score_final.items() , key = lambda x : x[1] , reverse = True)[0:10]
    return l

#I = itemcf_itemall()
#W = itemcf_matrix()
#result_userid = recommendation(2,k=20)

endTime = time.time()
print endTime-startTime

python来实现基于item的协同推荐就完成了，核心的相似度计算可以根据实际问题进行修改，整体流程同上即可，当然数据量大的时候分布式去写也是可以的。

#time  2017-09-17
#author：shataowei
#based-user

from collections import defaultdict
import math
import time
startTime = time.time()

#读取数据
#/Users/slade/Desktop/machine learning/data/recommender/u1.base
def readdata(location):
    list2item = {}  #商品对应的用户列表
    list2user = {}  #用户对应的商品列表
    f = open(location,'r')
    data = f.readlines()
    data = [x.split('\t') for x in data] 
    f.close()

    for i in data:
        if int(i[1]) not in list2item.keys():
            list2item[int(i[1])] = [[int(i[0]),int(i[2])]]
        else:
            list2item[int(i[1])].append([int(i[0]),int(i[2])])

        if int(i[0]) not in list2user.keys():
            list2user[int(i[0])] = [[int(i[1]),int(i[2])]]
        else:
            list2user[int(i[0])].append([int(i[1]),int(i[2])])
    return list2item,list2user
#list2item,list2user=readdata('/Users/slade/Desktop/machine learning/data/recommender/u1.base')

#基于用户的协同推荐
#0.先通过hive求出近一段时间（根据业务频率定义），用户商品的对应表
#1.求出目标用户的邻居，并计算目标用户与邻居之间的相似度
#2.列出邻居所以购买的商品列表
#3.针对第二步求出了商品列表，累加所对应的用户相似度，并排序求top

#0.hive操作

#1.1求出目标用户的邻居，及对应的相关程度
def neighbour(userid,user_group = list2user,item_group = list2item):
    neighbours = {}
    for item in list2user[userid]:
        for user in list2item[item[0]]:
            if user[0] not in neighbours.keys():
                neighbours[user[0]] = 0
            neighbours[user[0]] = neighbours[user[0]] + 1
    return neighbors
#通常来说，基于item的推荐对于商品量较大的业务会构成一个巨大的商品矩阵，这时候如果用户人均购买量较低的时候，可以考虑使用基于user的推荐，它在每次计算的时候会只考虑相关用户，也就是这边的neighbours(有点支持向量基的意思)，大大的降低了计算量。
#neighbours = neighbour(userid=2)

#1.2就算用户直接的相似程度,这边用的余弦相似度：点积/模的连乘
def similarity(user1,user2):
    x=0
    y=0
    z=0
    for item1 in list2user[user1]:
        for item2 in list2user[user2]:
            if item1[0]==item2[0]:
                x1 = item1[1]*item1[1]
                y1 = item2[1]*item2[1]
                z1 = item1[1]*item2[1]
                x = x + x1
                y = y + y1
                z = z + z1
#避免分母为0
    if x * y == 0 :
        simi = 0
    else:
        simi = z / math.sqrt(x * y)
    return simi
    
#1.3计算目标用户与邻居之间的相似度：
def N_neighbour(userid,neighbours,k):
    neighbour = neighbours.keys()
    M = []
    for user in neighbour:
        simi = similarity(userid,user)
        M.append((user,simi))        
    M = sorted(M,key = lambda x:x[1] ,reverse = True)[0:k]
    return M

#M = N_neighbour(userid,neighbours,k=200)

#2.列出邻居所购买过的商品并计算商品对应的推荐指数
def neighbour_item(M=M):
    R = {}
    M1 = dict(M)
    for neighbour in M1:
        for item in list2user[neighbour]:
            if item[0] not in R.keys():
                R[item[0]] = M1[neighbour] * item[1]
            else:    
                R[item[0]] = R[item[0]] + M1[neighbour] * item[1]
#根据邻居买过什么及与邻居的相似度，计算邻居买过商品的推荐度
    return R      
# R = neighbour_item(M)    

#3.排序得到推荐商品
Rank = sorted(R.items(),key=lambda x:x[1],reverse = True)[0:50]

endTime = time.time()
print endTime-startTime

python来实现基于user的协同推荐就完成了，核心的相似度计算可以根据实际问题进行修改，基于user的实现过程中，用了邻居这个概念，大大降低了计算量，我用了大概20万用户，2千的商品数，基于user的推荐实现速度大概为基于商品的10分之一，效果差异却相差不大。

协同推荐是非常简单的推荐入门算法之一，也是必须要手动快速代码实现的算法之一，希望能给大家一些帮助。

应用：能够快速实现的协同推荐
对于中小型的公司，用户的数据量及公司产品的个数都是较小规模的，需要提供给用户的推荐系统实现的重心也从人性化变成了实...
基于协同过滤算法的推荐系统
推荐系统有着广泛的应用，电影推荐，商品推荐等都用到推荐系统。本文介绍协同过滤算法的基本原理，进而理解推荐系统的实现...
octave实现协同过滤推荐算法
octave实现协同过滤推荐算法标签：推荐算法这是对关于电影评分的数据集使用协同过滤算法，实现推荐系统。数据...
octave实现协同过滤推荐算法
octave实现协同过滤推荐算法标签：推荐算法这是对关于电影评分的数据集使用协同过滤算法，实现推荐系统。数据...
SVD 代码实践
本文主要介绍tensorflow和pyspark对svd的实现，具体原理可见上篇-SVD在协同过滤推荐系统中的应用...
协同过滤（网新关键词）
协同过滤协同过滤定义：协同过滤（Collaborative Filtering）技术，是推荐系统中应用最为广...
网新关键词之协同过滤
协同过滤定义：协同过滤（Collaborative Filtering）技术，是推荐系统中应用最为广泛的技术之...
（241天）杰克·韦尔奇：一次人事变动比100次讲话更有效
真正能够使命、行动和结果协同起来，实现公司协同力的公司少之又少。结果是落实使命和行动，实现协同力的保障。杰克·...
低代码开发平台，API集成开发一体化
API低代码开发平台是指一种能够帮助企业快速交付业务应用的平台，实现了企业的降本增效目标，同时也实现了企业快速开发...
几维安全携手苏宁易购，创造企业安全建设新模式
在业务多元化、经营快速发展、全产业链安全协同的背景下，苏宁易购在业务安全领域的投入逐年加大，为实现应用能力和建设能...