[推荐系统00]概览

作者: 袁一帆 | 来源:发表于2016-11-06 22:03 被阅读289次

[推荐系统00]概览
今日头条、抖音推荐算法原理全文详解！
推荐系统算法概览和数据预处理方式
Python标准库详细介绍与基本使用方式，超详细！
Android系统概览
Android 系统概览
今日头条推荐算法原理全文详解（转载自36Kr）
今日头条算法原理（供新媒体部分特助研读）
抖音究竟为什么让我成功刷到了我“前男友”？
【转载】头条资深架构师揭秘，今日头条、抖音的推荐算法原理

简书不支持目录。。。将就一下

简书不支持目录。。。

Paste_Image.png

是欧氏距离的推广
r=1：曼哈顿距离，L1范数
r=2：欧几里得距离，L2范数
r=∞：上确界，任意维度对象属性间的最大距离

1.3. 马氏距离

Paste_Image.png

δ是协方差矩阵

1.4. 夹角余弦值

Paste_Image.png

⋅代表点积，∥x∥是向量x的长度
也叫余弦相似度，L2范数

1.5. 皮尔逊相关度

Paste_Image.png

利用x，y的协方差和标准差$\delta$ 进行计算

1.6. 简单匹配系数

Paste_Image.png

只对应二进制属性

1.7. Jaccard系数

Paste_Image.png

一般情况，推荐系统预测精确度不太受相似度度量方法的影响（ACM论文的实验）

2.抽样

从大数据集中选取子集的技术，因为处理全部数据开销太大
也用于创建训练数据和测试数据时候使用
最简单情况使用随机抽样
常用抽样方法是无取代抽样，就是不放回的拿
分离训练集测试集一般8：2

交叉验证

交叉验证(Cross-validation)，执行多次测试集训练集分离，训练模型评价模型，求评价精度
10折交叉验证(10-fold cross validation)，将数据集分成十份，轮流将其中9份做训练1份做验证，10次的结果的均值作为对算法精度的估计，一般还需要进行多次10折交叉验证求均值

有事抽样基于最近时间，或者按照评分比例抽样，根据具体情况进行一些控制

3.降维

推荐系统的2个大问题：稀疏和维度灾难，解决方法：降维

3.1 主成分分析（PCA）

能根据最小平方误差计算出变化最大的值，得到一组有序的成分列表。第一个成分的变化量比第二个成分的大，最后可以根据忽略对变化贡献小的成分来降低维度

PCA的限制

假设数据集是已线性合并为基础的数据集（有对应非线性的PCA变种算法）
原始数据符合高斯分布

3.2 奇异值分解

目标是发现低维特征空间，这个空间中每个成分都是可以计算的

$\lambda$是对角矩阵，元素是奇异值，正定，按照降序排列
可以通过控制$\lambda$矩阵的秩来决定降维的力度

SVD可以发现用户和产品的潜在关系。方法是利用平均分填充用户-物品矩阵，然后进行SVD分解，然后直接计算预测值，根据预测结果来丰富kNN等方法的邻居信息

矩阵分解的方法还有MF，NNMF等，其基本思想都是把评分矩阵分解为2个部分，一部分包含描述用户的特征，另一部分包含描述物品的特征

后面再介绍基于SVD的增量学习等技术

3.3 去噪

噪音数据有缺失数据，异常数据等形式
去噪目的是在最大化信息量的同时去掉不必要的影响

数据分析

1.分类

这里列举一下推荐系统常见的分类算法，不细致讨论算法细节

1.1 最近邻

原理：根据最近的K个点的标签来决定数据的标签
优点是KNN的概念和CF的邻居很相关，而且不需要训练而合维护一个模型，能适应评分矩阵的剧烈变化
缺点显而易见，每次预测都需要计算每个点的距离

1.2 决策树

常见数的树算法：CART，ID3，C4.5，SLIQ，SPRINT
决策树的重点在于决策节点的划分，找到不纯度减少最多的点，衡量不纯度的方法：信息增益，基尼指数，熵，误分类误差等
优点是结果好解释，构建树代价小

1.3 基于规则分类

可以从树模型里面提取规则，再根据规则进行分类

1.4 贝叶斯

利用概率来代表从数据中学习到的关系的不确定性
模型得到的概率是先验概率和似然值的乘积，先验代表了观测数据之前的经验，期望，似然值部分代表了数据的影响
朴素贝叶斯假设特征间概率独立，好处是受孤立噪音点，和不相关特征的影响小，缺点是独立的假设对于相关属性不成立
解决特征依赖的方法是贝叶斯信念网BBN，利用非循环图表达属性的依赖关系

1.5 人工神经网络

神经网络做分类，可以做非线性分类任务

1.6 支持向量机

找到分类平面，这个平面使间隔最大化，结构风险最小化

1.7 分类器集成

Bagging，Boosting

1.8 评估分类器

有量化评分的结果，均方误差MAE，均方根误差RMSE
把推荐看做分类的情况，准确率，召回率，F值，ROC，AUC

2.聚类

聚类可以在计算近邻之前先把类似的划分到一起，从而提高效率，但是提高效率和降低精度要衡量

聚类主要分为2个类别，分层和划分
划分：把数据划分成非重合的聚类，每个数据都确定的属于一个类别
分层：在已知聚类上继续聚合物品，嵌套的层级树

2.1 k-means

缺陷：选k值需要先验知识；聚类对初始点敏感；异常值敏感；会产生空聚类
可以利用k-means作为预处理构造邻居

2.2 DBSCAN

基于密度进行聚类。核心点：给定距离内有一定数量邻居的点；边界点：没有超过一定数量邻居，但是属于核心点邻居的点；噪声点：核心点边界点以外的点
利用消息传递算法，是基于图聚类的方法

3.关联规则挖掘

关联规则发现的规则只意味着共同出现，并没有因果关系

利用支持度和置信度对规则进行筛选

先根据支持度生成物品集（频繁项集生成），再从频繁项集里面产生高置信度规则

[推荐系统00]概览
简书不支持目录。。。将就一下推荐系统概览推荐系统三个基本对象推荐系统需要的三类数据源：物品，用户，事务物品...
今日头条、抖音推荐算法原理全文详解！
本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析，内容安全等原理。一、系统概览推荐系统，如...
推荐系统算法概览和数据预处理方式
推荐系统基础知识概览图在进行推荐系统构建时，我们主要分为四大步：1.基于数据源获取数据 2.对数据进行预处理操作...
Python标准库详细介绍与基本使用方式，超详细！
目录： Python 标准库概览概览操作系统接口 os 模块提供了很多与操作系统交互的函数: 应该用 impor...
Android系统概览
Everyone has talent. What is rare is the courage to follo...
Android 系统概览
本篇内容主要目的在从整体上了解Android 庞大的系统架构，根据系统架构中的不同模块和分层找到和梳理一条学习路径...
今日头条推荐算法原理全文详解（转载自36Kr）
本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析，内容安全等原理。如今，算法分发已经逐步成...
今日头条算法原理（供新媒体部分特助研读）
本文主要分享了今日头条推荐系统概览以及内容分析、用户标签、评估分析，内容安全等原理。今天，算法分发已经是信息平台...
抖音究竟为什么让我成功刷到了我“前男友”？
一、系统概览推荐系统，如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数，这个函数需要输入三个维度的...
【转载】头条资深架构师揭秘，今日头条、抖音的推荐算法原理
一、系统概览推荐系统，如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数，这个函数需要输入三个维度的...