Netflix与推荐系统

作者: 天善智能 | 来源:发表于2018-08-01 16:14 被阅读6次

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

    对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tsaiedu,并注明消息来源,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。

    天善学院2018年度SVIP 998特惠即将结束!https://www.hellobi.com/svip一众一线名企名师,一波数据分析+人工智能+商业智能绝对好课!

    作者:挖数 腾讯数据产品经理 & 段子手

    个人微信公号:washu66


    最近,看到光腚总菊在6月30日又发布了老百姓喜闻乐见的通知【苹果中国区所有游戏需要广电总局审批才可上架】,不禁感叹中国媒体游戏行业的命途多舛,莫非以后下游戏都要上淘宝买个美国的Appstore账号?这不科学!

    光腚的屠刀最初是砍向国内电影的,众所周知一部电影要在院线上映,必须经过光腚的审核,而这种审核又极其的主观和不透明,导致了国内电影市场充斥了各种主旋律电影和被阉割过的国外电影。

    审核,导致了中国电影创新的不足,以及与民众喜好的脱节。

    反观国外,用电影分级制度取代审核,很好地保证了电影创作者的自由,各种电影公司很早就开始了数据调研,各方面收集观众数据,确保拍出的电影,能够最大限度迎合观众的喜好。

    这种自下而上,从观众喜好出发拍电影电视剧的公司,佼佼者是拍出了《纸牌屋》的Netflix。

    Netflix不是一家传统的媒体公司,他是一家纯正的互联网公司。1998年Netflix在美国硅谷创立,两个创始人Marc Randolph和Reed Hastings 都有IT行业背景。

    Reed Hastings 原本是一个数学老师,在1991年创立了一家叫Pure Software的公司,主要的产品是开发一种给Unix和C程序员使用的调试工具。1997年Hastings将公司作价7亿美元卖给了另外一家软件公司,使他拥有了创立Netflix的原始资本。

    而Marc Randolph 最初是英国最大的电脑和IT设备零售商MicroWarehouse 的联合创始人。

    创始人的IT背景,让Netflix 这家公司走的路,非常的与众不同,而他最与众不同的地方,在于他的电影推荐系统Cinematch。

    国内上Netflix需要翻墙,Netflix采用付费会员制,会员按月付费,付完就可以无限制地观看上面各种连续剧和电影(包括很多Netflix自制和独播的视频)。

    香港的Netflix月付会员分基本、标准、高级三种,不同的地方在于是否可观看高画质的视频,以及是否可在多个屏幕(电视、PC、手机)观看。

    购买会员后第一次登陆,会让你选择三个喜欢的影片,作为Cinematch(Netflix的电影推荐系统)的初始数据源。

    选择完会有一个缓冲页面,这时应该是在运行他们后台的推荐算法。

    缓冲完需要选择是谁在观看影片,这也是一个Cinematch 的初始数据输入,根据观看用户不同,推荐的结果也不一样。

    整个页面非常简单,分为26行,里边涉及到推荐的主要是给俊的最佳推荐、与《蝙蝠侠-夜神起义》类似影片 (我选择的三部电影之一)、与《纸牌屋》类似影片(我选择的三部电影之一)、与《心灵捕手》类似影片(我选择的三部电影之一)这4行。

    其他都是一些公共的,如热门选择、惊悚影片、喜剧片等。

    Netflix的订阅用户数目前已超过1亿,并且以每天几十万的速度在增长。

    他的推荐系统Cinematch 的数据源主要有以下8个:

    上百亿的用户对视频的评分数据,并且每天以千万的规模增长,这是个很重要的输入数据,用户对视频的主观评分,反映用户的喜好。

    每天上千万的播放数据,这些数据包括用户的播放时长、播放时间点、设备类型等。

    如将视频添加进我的片单、将视频添加进播放列表等操作数据,反映着用户的喜好。

    用户与网页的交互,包括鼠标点击、页面停留时长、鼠标轨迹等。

    用户播放的视频的属性数据,包括导演、演员、类型、评论等。

    Netflix与Facebook等社交网站打通,可以取到用户关联的Facebook账号的社交数据,如取到他们好友的播放记录,可实现基于好友的推荐。

    每天上千万的搜索请求,包括用户输入的搜索关键字,以及最终用户选择的搜索结果等数据。

    外部电影网站的数据,如影片票房、影评等。

    Cinematch在上线前,会经过2轮的测试,分别是线下测试和线上测试。

    Netflix内部叫Top10 Marathon(前十的马拉松比赛),为期10周,线下不涉及用户地快速地检测数十种算法,提升前10个推荐结果的精准度。不同的人被邀请到一起,贡献想法,并编程实现。

    线下测试的评价指标主要是统计上的指标,如预测的评分与真实评分相差的均方根等。

    线上测试就是A/B Testing,通常会平行多个A/B Testing,同时实验几个算法和一些激进的功能改进。

    线上测试的评价指标主要有3个,包括视频播放时长、用户停留时长、用户留存率。如果新的算法可以提升这3个指标,那么会认为新算法优于旧算法。

    整个测试流程的图示:

    从2006年开始,Netflix一直在举办Netflix大奖赛,这是一个机器学习与数据挖掘的比赛,目的是在全球征集算法,提升电影的评分预测准确度。

    对于能将Cinematch系统的准确率提升10%的获胜团队,能获得100万美元的奖金。

    Netflix积累了庞大的用户数据,这些数据让他成为世界上最了解用户的电影公司,也让Netflix从影片租赁、视频流媒体服务走上了自制剧的道路。

    Netflix的《纸牌屋》风靡全球,而《纸牌屋》的诞生,也是基于数据挖掘。

    在《纸牌屋》诞生之前,Netflix在对用户喜好数据的挖掘中,发现1990年BBC播出的英剧版《纸牌屋》在过去了几十年后的今天,依然广受影迷欢迎,用户播放数据居高不下。

    并且发现这批观看英剧版《纸牌屋》的用户,观看最多的电影的导演是大卫·芬奇,演员是凯文·史派西,因此投入巨大的资金,押宝《纸牌屋》的重制,并且邀请大卫·芬奇作为第一季的导演,邀请凯文·史派西饰演第一男主角下木(Underwood)同志。

    最终,重制的《纸牌屋》获得了9项艾美奖的提名,包括最佳剧集、最佳男主角、最佳女主角等。并且第一季度的《纸牌屋》,帮助Netflix新增了200多万个新的订阅用户。

    从DVD租赁,到视频流媒体服务,到自制剧,Netflix依靠数据挖掘,成为世界上最独特的电影公司,也让他成为一家年销售额接近70亿美金,净利润达到1.3亿美金的巨无霸公司。

    一套SVIP课程,15选8,每套课程均价112!知识付费的时代,一次旅游的钱便能收获8大全方位、多体系的课程

    更有全场六折优惠课程,为你加油助力!

    相关文章

      网友评论

        本文标题:Netflix与推荐系统

        本文链接:https://www.haomeiwen.com/subject/tmjrvftx.html