信息流的那点事：3 推荐算法是如何实现的？

作者: kuanso | 来源:发表于2017-05-23 23:35 被阅读653次

信息流的那点事：3 推荐算法是如何实现的？
推荐系统学习资料收集
JS简单实现决策树(ID3算法)
信息流产品与推荐系统（一）
关于推荐算法评价指标的思考——变相召回率
octave实现协同过滤推荐算法
octave实现协同过滤推荐算法
理论-决策树
了解信息流产品和内容推荐算法
算法笔记二：内容推荐算法

讲完信息流流行的原因（信息流的那点事：2 为什么信息流如此流行），这一篇，我们来从产品的视角，来看看推荐算法在技术上是如何实现的。

一、推荐算法的分类

根据需要的技术和运营成本，可以将主流的推荐算法分为三类：基于内容元数据的推荐、基于用户画像的推荐、基于协同过滤算法的推荐。

1.基于内容元数据的推荐

基于元数据的推荐是比较基础的推荐算法，基本原理是给内容打标签，具体元数据的选取根据的内容有所不同，比较通用的角度有内容的关键词、类型、作者、来源等，打开一款头条类app，选择屏蔽一条内容，就可以看到一些该内容的元数据。

有了内容的元数据，就可以根据内容间的关联，可以进行相关内容的推荐，喜欢看奇葩说的用户，可能也会喜欢看同是米未传媒出品的饭局的诱惑。根据内容的元数据，也可以记录并逐渐明确用户的内容偏好，进行数据积累，便于结合用户的喜好进行对应的精准推荐，这也就是下面要说的基于用户画像的推荐的内容。

2.基于用户画像的推荐

用户画像，类比一下就是给用户打标签，主要由三部分组成：用户的基础数据（年龄、性别等）、应用使用数据（应用使用频率、时长等）和内容偏好数据（喜好的内容分类、种类等）。

对于基础数据，不同年龄的用户的内容偏好有很大差异，年轻人可能更喜欢新歌热歌，而中年人可能更爱听怀旧一些的歌曲；根据应用使用数据，可以进行用户分层，活跃用户可以多推荐内容促进使用，快要流失用户可以推送一些打开率较高的内容来挽回，运营活动也可以更有针对性；基于内容偏好数据，可以记录并逐渐明确用户的内容偏好，从而进行更精准的推荐，从爱看娱乐新闻，到爱看国内明星，再到爱看某个小鲜肉，随着内容偏好数据的逐步积累，头条类产品的推荐也就越精确。

3.基于协同过滤算法的推荐

协同过滤算法，简单来说，就是寻找相近的用户或内容来进行推荐，主要有基于用户的协同过滤推荐和基于项目的协同过滤推荐两种。

（1）基于用户的协同过滤推荐

基于用户的协同过滤推荐算法，就是通过算法分析出与你内容偏好相近的用户，将他喜欢的内容推荐给你，这种推荐给你志同道合的人爱看的内容的思路，更相近于生活中的朋友作为同道中人的推荐。举例来说，如果你喜欢ABC，而其他用户在和你一样喜欢ABC的同时，还都喜欢D，那么就会把D推荐给你。

（2）.基于内容的协同过滤推荐

基于内容的协同过滤推荐算法，就是通过算法分析出内容和内容之间的关联度，根据你喜欢的内容推荐最相关的内容，常见的看了这个内容的用户85%也喜欢xxx，就是这种思路。举例来说，如果你喜欢A，而喜欢A的用户都喜欢B，那么就会把B推荐给你。

相比于纯粹的基于内容元数据的推荐，基于内容的协同过滤推荐更能发现一些内容间深层次的联系，比如罗辑思维经常推荐各种内容，仅仅根据内容元数据来推荐，一集罗辑思维最相关的应该是另外一集，并不能推荐内容元数据相关性不太大的节目里推荐的内容；但由于可能很多用户看完后都会搜索查看节目里推荐的内容，基于内容的协同过滤推荐就会发现两者的相关性，进行推荐。

二.推荐算法的数据来源

介绍推荐算法的思路时，我们一直谈到一个词“内容偏好”，这也就是实现推荐算法时一个核心的问题——需要通过怎样的数据，才能判定用户的内容偏好？主流的思路有一下三种：

1.手动选择

让用户手动选择，显然是最简单的思路，然而由于选择的空间必然有限，只能让用户从几个大类中间挑选，无法涵盖全部内容的同时，粒度过大推荐也就很难精准。而且刚打开应用就让用户选择，或者是让用户使用一段时间后在去补充选择，这样的操作都太重可能造成用户流失。

2.用户操作

既然手动选择很难实现，我们就需要从用户的使用数据中挖掘，主流的思路就是根据用户一些主动操作来判断，点击阅读了就说明喜欢，点了赞或者回复分享就是特别喜欢，如果跳过了内容就减少推荐，点击了不感兴趣，就不再推荐。

根据用户使用的操作来判断内容偏好，在不断地使用中积累与细化数据，对内容偏好的判断也就越来越准确，这就是头条系应用的主要策略，这样的策略对于下沉市场的不愿做出主动选择的沉默用户，是一个非常适合的策略，但这样只看点击与操作，不关注内容实际质量的策略也会造成标题党、内容低俗等问题，在后文会进一步介绍。

3.隐性数据

既然选择不能完全代表用户的内容偏好，如何使判断更加精准呢？就要从一些更加隐性的数据入手了，比如对于文章，除了点击，阅读时间，阅读完成度，是否查看文章的相关推荐内容，都是可以考虑的角度，相比纯粹的点击判断，可以一定程度上解决标题党的问题。再比如看视频，如果快进次数过多，虽然看完了，可能也不是特别感兴趣，而值得反复回看的内容，命中内容偏好的几率就相对较高。

三、推荐算法的分发过程

介绍完了推荐算法的原理与数据来源，让我们来试着还原一下一条内容的完整分发流程。

首先，是内容的初始化与冷启动。可以通过算法对内容进行分析提取或者人工处理，提取内容的来源、分类、关键词等元数据，再根据用户画像计算内容兴趣匹配度，分发给有对应内容偏好的用户，,也可以通过内容原匹配度,向关系链分发,完成内容的冷启动。

然后，可以根据用户阅读时间，阅读完成度,互动数等数据，对该内容的质量进行分析，相应的增加或者减少推荐,实现内容动态分发调节。

最后，就是协同过滤算法发挥作用的时间，对于优质内容，可以通过基于用户的协同过滤推荐，推荐给与该内容受众有类似爱好的用户，也可以基于项目的协同过滤推荐，推荐给爱观看同类内容的用户,让优质内容的传播不在局限于关系链。

写在最后

在真正的推荐算法实现过程中，除了基础的内容原匹配度,内容匹配度和内容质量,还有很多值得考虑的问题，比如新闻通知等时效性内容就要短时间加权，超时则不推荐；对于用户的内容偏好也不能永远维持，随着时间用户可能会喜欢新的内容，如果一定时间内用户对以前喜欢的内容不感兴趣，就要减少该种类推荐；还有为了不陷入越喜欢越推荐，最后全部是一种内容，让用户厌烦的境地，对于用户的偏好也要设定一个上限；为了保持新鲜度，需要帮助用户发现他可能喜欢的新内容.....

最后，通过数据可以了解我们如何阅读这篇文章，但任何数据都无法准确描述我们阅读后的感受与收获；再高级的算法也只是算法，它虽然可能比我们更了解我们实际的的内容偏好，但无法了解到我们对于内容的追求。

这可能也就是头条系产品虽然收获了巨大成功，但也收到了标题党、低俗化、回音室效应等指责的原因，下一篇，让我们来聊聊，信息流产品的面临的问题与可能的解决方法。

信息流的那点事：3 推荐算法是如何实现的？
讲完信息流流行的原因（信息流的那点事：2 为什么信息流如此流行），这一篇，我们来从产品的视角，来看看推荐算法在技术...
推荐系统学习资料收集
五分钟了解信息流产品和内容推荐算法作者：也而如何评估推荐质量一个信息流产品，不会仅仅使用一种算法模型，通常会进...
JS简单实现决策树(ID3算法)
推荐阅读:ID3算法 wiki决策树算法及实现完整示例代码:JS简单实现决策树(ID3算法)_demo.html ...
信息流产品与推荐系统（一）
#学习笔记# 什么是信息流产品？信息流产品的价值在哪就是面向合适的用户推荐合适的内容。我们从内容交互算法三个层...
关于推荐算法评价指标的思考——变相召回率
背景博主主要考虑的推荐算法用于信息流，瀑布式的展示，能不断地下拉刷新。推荐算法的基础就是基于用户的操作行为，记录...
octave实现协同过滤推荐算法
octave实现协同过滤推荐算法标签：推荐算法这是对关于电影评分的数据集使用协同过滤算法，实现推荐系统。数据...
octave实现协同过滤推荐算法
octave实现协同过滤推荐算法标签：推荐算法这是对关于电影评分的数据集使用协同过滤算法，实现推荐系统。数据...
理论-决策树
ID3算法Building Decision Trees in Python如何实现并应用决策树算法？
了解信息流产品和内容推荐算法
知乎live（二）——了解信息流产品和内容推荐算法本篇文章分为三部分，一是关于知乎live—了解信息流产品和内容...
算法笔记二：内容推荐算法
目前推荐算法分为四大类：【1】协同过滤推荐算法【2】基于内容的推荐算法【3】流行度推荐算法这种方法是对it...

信息流的那点事：3 推荐算法是如何实现的？

一、推荐算法的分类

1.基于内容元数据的推荐

2.基于用户画像的推荐

3.基于协同过滤算法的推荐

二.推荐算法的数据来源

1.手动选择

2.用户操作

3.隐性数据

三、推荐算法的分发过程

写在最后

相关文章

信息流的那点事：3 推荐算法是如何实现的？

推荐系统学习资料收集

JS简单实现决策树(ID3算法)

信息流产品与推荐系统（一）

关于推荐算法评价指标的思考——变相召回率

octave实现协同过滤推荐算法

octave实现协同过滤推荐算法

理论-决策树

了解信息流产品和内容推荐算法

算法笔记二：内容推荐算法

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

运营之光

@产品

首页投稿（暂停使用，暂停投稿）

@产品路，让生活触发思考

产品分析