绝大多数时候,一群人合起来都会比一个人更有智慧。问题是每个人天生都知道怎么运用自己的智慧,但群体是个人的集合,汇聚许多人的智慧,需要方法。
今天再讲第二个:贝叶斯推理的方法。
豆瓣的简单平均法简洁但远不完美。假设一部电影只有两个人打分五星,另一部电影一百万人打分平均4.9星。哪部电影更好?简单平均法识别不了。
这时候就需要另一种算法,贝叶斯推理。
电影评价类网站的始祖和霸主IMDb用的就是这种算法,它能够解决极少数用户打极高分或者极低分的时候,对一部电影的评价出现不准确或不公平的问题。
在这一点上,它是一个比豆瓣更优化的评价机制。
那什么是贝叶斯推理呢?贝叶斯推理是一种更新既有判断的方法,有两个要点:首先你有一个既有判断;其次获得新信息,不断调整更新。
这么说有点抽象,其实我们每个人在生活中都在用,我来举个例子你就知道了。
比如,我第一次跟你见面,我不了解你,对你一无所知,但是我对人类有点了解。我先入为主的看法就是好人和坏人三七开,七分好三分坏。
那我跟你打交道,我就假设你也是三七开,我们在一起聊了一个小时的天,我给你多打一分,就变成二八开了;我们共事的一年,我觉得你特别棒,就变成一九开了。
这就是我们用贝叶斯推理对人进行的评价和判断。那贝叶斯推理在IMDb电影评分机制上是怎样运用的呢?
贝叶斯推理总是从预先的假设开始。既然事先不知道一部电影得分会是多少,那就给它一个基准分,对应一个基准的投票数。IMDb给的基准分是网站上所有电影的平均分,比如6.5,对应基准的打分人数,比如是3000人。
不管是什么电影,在获得第一个用户打分之前,默认都是得6.5分,对应着3000张投票。
你看了电影,开始打分,新信息进来了。贝叶斯推理会用这些新信息修正得分,随着每个用户的打分变化。算法我就不列了。大体上是这样的情境:
如果只有一个用户打分,那么电影得分无限接近于网站平均分;如果有3000真实用户打分,跟基准数一样,那么得分正好是3000名真实用户实际打分,与网站平均分两个分值之间的平均分;如果打分用户数量极大,那么得分会极度逼近这些用户的实际打分。
投票人数的问题处理好了,但问题没完。
网友评论