昨天赶一份项目文档,所以停更了一天。今天继续谈谈今日头条到底是凭什么完成筛选和推荐的。
对于今日头条是如何完成筛选和推荐的可以有非常“高科技”的解答。这类解答往往会从两个显得非常牛x的词组开始:基于物品(Item-based)的推荐和基于用户(User-based)的推荐。老土还记得第一次听到这两个词的时候,也是觉得非常牛x。不过在学生耐心的给老土讲了一会儿之后,老土默默的在心中想,“我恨你们这些满口洋词的技术人员,老祖宗有那么多超级贴切的词,你们竟然不用!!!”。
从老土的角度看,基于物品(Item-based)的推荐和基于用户(User-based)的推荐根本就有一个非常容易理解的常用语对应。
物以类聚,人以群分
下面老土具体解释一下。
首先说“物以类聚”。
物以类聚这个是说不同事物之间都有关联性,有的强,有的弱。如果一个用户喜欢事物A,那么优先向这个用户推荐与事物A“强关联”的事物B,这个用户很可能会更加满意。然而,这个做法的难点在于事物之间的关联性要如何评价,即什么才算是事物之间的关联性强?要如何描述事物之间的关联性?
显然针对不同类型的事物关联性的评价指标有很大差异。以今日头条关注的新闻为例,描述两条新闻之间的关联性的指标就有很多,如下举几个例子。
两则新闻共有关键字的情况。如果一则新闻中大量提到了“大庆”、“油气田”等关键字,而另一则新闻中也大量出现了“大庆”、“油气田”,那么就可以认为这两则新闻的相关性很高。咋一看“关键字”识别仿佛会非常有效,但实际情况并非如此简单。因为如果只是简单的关注关键字的重合度这个指标,甚至可能遇到适得其反的结果。老土记得当年在找工作的时候,中国移动非常在意毕业生是否有3G的相关知识和项目经验,于是要求他们的招聘代理(具体哪家忘记了,不是51job,就是ChinaHR)在筛选简历的时候,学生的简历中必须提及3G或是相关关键字(TD-SCDMA、CDMA2000、WCDMA),而且是相关关键字越多,简历的排名就越靠前。于是中国移动的人力资源部收到了如下一份简历。
中国移动G3前面内容略去。
虽然我没有3G(TD-SCDMA、CDMA2000、WCDMA)的相关项目经验,但是我相信以我的学习能力可以迅速的了解和掌握TD-SCDMA、CDMA2000、WCDMA的相关知识和技术。目前我已经购买了TD-SCDMA、CDMA2000、WCDMA相关的书籍展开了学习,希望贵公司给我一个机会证明自己。
后面内容略去。
这个事情在当年算是一个非常经典的“骗面试”的“经验”。同时这也可以作为经典的用于证明“不能单纯依靠关键字进行推荐”的案例。虽然围绕关键字判定关联性在实现上比较简单,但是效果的确是差强人意。
既然单纯依靠关键字不行,往往不得不提到基于“语义”判定新闻间的关联性。但这个方法容易说,不容易做!毕竟人类的语言博大精深,如何识别出一段文字的“语义”实在是太难了。
中国队大胜日本队“中国队大胜日本队”和“中国大败日本队”竟然是一个意思!
目前“自然语言处理(Natural Language Processing/NLP)”是业界的热点之一,也是人工智能技术的重要应用领域。但这里老土还是要戏说一下“业界热点”这个词的含义。
所谓“业界热点”的意思是,大家都觉得有搞头,但还没有(很少有)哪家真的搞出搞头了!
实现简单的“关键字”,效果不行;效果好的“自然语言处理”,技术不行。那该怎么办?
[未完待续]
没有想到一千字连“物以类聚”都没有讲完,明天继续!
网友评论