美文网首页
从搜索到推荐

从搜索到推荐

作者: 希言亦然 | 来源:发表于2022-01-11 20:45 被阅读0次

    如今,大多数的互联网应用都和“推荐”紧密联系。抖音为你推荐你爱看的短视频,拼多多为你推荐你爱买的商品,网易云音乐为你推荐你爱听的歌曲……对于大部分人来说,除了追剧、玩游戏等外,时间几乎都用在了被动地刷手机,也就是只需一个指头不断地翻看由机器算法推荐而来的视频、文章、商品。就连一直以简单到仅仅一个搜索框而傲娇的百度首页,也早已变成了永远刷不到底的推荐文章列表。这背后都是机器学习的“推荐算法”在起作用。

    然而,在大概10年之前的PC互联网时代,搜索远比推荐更加普遍。谁占领了搜索入口,谁就占领了流量的分配权。百度因此一举成为了国内市值最高的互联网公司,淘宝也因屏蔽了百度的搜索,在电商搜索领域鹤立鸡群,并快速成长为国内最大的电商平台。

    在淘宝中,除了通过关键词搜索,还可以按商品类目找寻。前者完全是购物目的十分明确的主动行为,而后者更多地带有了逛的目的。当时已小有名气的阿里巴巴首席交互设计师白鸦,发现了逛的需求尚未被很好的满足,于是离开了阿里开始创业做一个叫做“逛”的项目,结果以失败告终。后来做了电商的SaaS有赞,终于算是成功了。

    在PC互联网时代,推荐总也做不起来,或者总也盖不住搜索的风头,PC互联网本身的特点是其中的部分原因:一是电脑屏幕大,一个页面中入口可以非常多;二是在电脑键盘上敲打简单的关键词比较方便;三是那时候并非全民上网,能用电脑的人总还是有点文化、有点正事的人。

    而到了移动互联网时代,上述三项PC互联网时代的特性荡然无存。同时,更加有利于推荐的因素悉数到来:用户无时无刻不连接在线;手机中无数的传感器提供了地理位置等更多用户属性;全民上网和微信等社交网络带来海量社交数据……因而,在移动互联网时代,推荐很快占据了上风,在许多应用场景中都力压搜索。它将从未接触过电脑的人们直接带入到永远在线的状态,并像黑洞一般,不断吞噬着人们的眼球和时间。

    海量数据,是机器学习的前提,也即是推荐算法得以生存和发展的粮草弹药。利用海量数据的机器学习,是人工智能的主流思路。在1956年之前,科学家们更热衷于通过描述特征、规则等让机器明白,但进展始终不尽如人意,因此被基于数据的机器学习(也叫深度学习、强化学习)的新思路取代。有了海量数据,就能不断对算法模型进行迭代调优,这是个持续进行的学习过程。通过这个算法模型,实现预测,也便能输出给用户推荐的具体内容。数据、学习和决策,构成了整个推荐系统的三个主要模块,他们彼此依赖,循环影响。

    那么,推荐系统是如何知道每个人的喜好?现在普遍使用的推荐算法叫做“个性化协同推荐”(Personalized Collaborative Recommender)。说它“个性化”,是因为它跟踪和记录了每个用户的个性化特征,比如用户的环境和每一次的点击、浏览、收藏、购买等操作行为;说它“协同”,是因为它同时根据其他许多用户的行为来将不同的内容建立相关性,从而实现远比分析单品本身的特征来得更加全面和准确,因此这里的协同也可以叫社会化。

    要让这样的“协同”效果好,人要多,内容要多,人和内容的关系也要多。用豆瓣读书来举例,要有足够多的用户,要有足够多的图书,每个用户都点评了足够多的图书,每本图书也被足够多的用户点评过。这样,如果大多数喜欢图书A的人,同时也喜欢图书B,我们就可以认为图书A和B之间有一定的关联的,那么就可以预测喜欢图书A的人,应该也喜欢B,从而为他们推荐图书B。

    反过来也可以使用同样的思路对人建立关联,比如用户张三和李四喜欢的数据重叠度比较高,因此可以认为他俩是相似的人群。当然这样的举例仅仅是一种极简的逻辑,实际情况需要综合非常多的因素,并通过权重进行综合评定。

    对于一个新用户,因为缺乏数据,上述的推荐算法是无效的。因此,热门推荐是不可或缺的算法组成部分。当然,也可以认为这是一种特殊的协同,最广大用户所喜欢的内容即是热门。

    同搜索系统类似,推荐系统也需要经过匹配(matching)和排序(ranking)两个主要过程来输出最终的推荐结果

    匹配也就是根据用户和环境特征,通过快速的算法和规则,从数以百万计以上的数据中初步筛选出符合条件的推荐内容。也有些人管这个过程叫“召回”。这个过程所依赖的数据,往往是提前一些时候(比如每天凌晨)准备好的,这样可以避免过于庞大的性能开销。

    排序则是将这些匹配结果根据更多的用户特征,包括刚刚发生的行为,按照排序算法进行优先级排列。例如,淘宝的搜索或推荐结果,在排序上要同时考虑多样性(避免重复、相似或同一个卖家的商品连续出现)、时效性、相关性、转化率(从列表到点击的CTR到最终成交转化等数据)、个性化(买家的倾向)等因素。因此,在排序过程中,往往需要更多实时的数据进行计算,并且需要进行多次排序,也即从初排到精排的过程。

    人性是及其复杂的,在有海量数据的前提下,好的推荐算法也随之变得越来越复杂。比如有的人就是喜欢各种猎奇,看新鲜东西,看不同类别的东西,这时候,推荐的内容中就需要更多一些与之前用户历史数据无关的内容,曾经喜欢的,反倒就不用再推荐了。所以,算法要有弹性,对不同的可能,都需要给出一定的尝试机会。

    从搜索到推荐,没有了用户输入的关键词,却多了更多隐性的关键词,通过个性化推荐、社会化推荐和热门推荐,让用户无需输入关键词或选择目录,就能坐等喜好之物自动呈现眼前。这场伴随着移动互联网而来的产品革命,直接打破了上一个时代由百度、阿里和腾讯所形成的BAT格局,头条系产品异军突起,成为了数据+推荐最有代表性的成功案例。

    搜索并未衰老,只是推荐正当壮年。

    相关文章

      网友评论

          本文标题:从搜索到推荐

          本文链接:https://www.haomeiwen.com/subject/czuvqrtx.html