信息流应用的崛起(4)

作者: 北邮老土 | 来源:发表于2017-12-13 16:48 被阅读0次

昨天赶一份项目文档,所以停更了一天。今天继续谈谈今日头条到底是凭什么完成筛选和推荐的。


对于今日头条是如何完成筛选和推荐的可以有非常“高科技”的解答。这类解答往往会从两个显得非常牛x的词组开始:基于物品(Item-based)的推荐和基于用户(User-based)的推荐。老土还记得第一次听到这两个词的时候,也是觉得非常牛x。不过在学生耐心的给老土讲了一会儿之后,老土默默的在心中想,“我恨你们这些满口洋词的技术人员,老祖宗有那么多超级贴切的词,你们竟然不用!!!”。

从老土的角度看,基于物品(Item-based)的推荐和基于用户(User-based)的推荐根本就有一个非常容易理解的常用语对应。

物以类聚,人以群分

下面老土具体解释一下。

首先说“物以类聚”。

物以类聚

这个是说不同事物之间都有关联性,有的强,有的弱。如果一个用户喜欢事物A,那么优先向这个用户推荐与事物A“强关联”的事物B,这个用户很可能会更加满意。然而,这个做法的难点在于事物之间的关联性要如何评价,即什么才算是事物之间的关联性强?要如何描述事物之间的关联性?

显然针对不同类型的事物关联性的评价指标有很大差异。以今日头条关注的新闻为例,描述两条新闻之间的关联性的指标就有很多,如下举几个例子。

两则新闻共有关键字的情况。如果一则新闻中大量提到了“大庆”、“油气田”等关键字,而另一则新闻中也大量出现了“大庆”、“油气田”,那么就可以认为这两则新闻的相关性很高。咋一看“关键字”识别仿佛会非常有效,但实际情况并非如此简单。因为如果只是简单的关注关键字的重合度这个指标,甚至可能遇到适得其反的结果。老土记得当年在找工作的时候,中国移动非常在意毕业生是否有3G的相关知识和项目经验,于是要求他们的招聘代理(具体哪家忘记了,不是51job,就是ChinaHR)在筛选简历的时候,学生的简历中必须提及3G或是相关关键字(TD-SCDMA、CDMA2000、WCDMA),而且是相关关键字越多,简历的排名就越靠前。于是中国移动的人力资源部收到了如下一份简历。

前面内容略去。

虽然我没有3G(TD-SCDMA、CDMA2000、WCDMA)的相关项目经验,但是我相信以我的学习能力可以迅速的了解和掌握TD-SCDMA、CDMA2000、WCDMA的相关知识和技术。目前我已经购买了TD-SCDMA、CDMA2000、WCDMA相关的书籍展开了学习,希望贵公司给我一个机会证明自己。

后面内容略去。

中国移动G3

这个事情在当年算是一个非常经典的“骗面试”的“经验”。同时这也可以作为经典的用于证明“不能单纯依靠关键字进行推荐”的案例。虽然围绕关键字判定关联性在实现上比较简单,但是效果的确是差强人意。

既然单纯依靠关键字不行,往往不得不提到基于“语义”判定新闻间的关联性。但这个方法容易说,不容易做!毕竟人类的语言博大精深,如何识别出一段文字的“语义”实在是太难了。

“中国队大胜日本队”和“中国大败日本队”竟然是一个意思!

中国队大胜日本队

目前“自然语言处理(Natural Language Processing/NLP)”是业界的热点之一,也是人工智能技术的重要应用领域。但这里老土还是要戏说一下“业界热点”这个词的含义。

所谓“业界热点”的意思是,大家都觉得有搞头,但还没有(很少有)哪家真的搞出搞头了!

实现简单的“关键字”,效果不行;效果好的“自然语言处理”,技术不行。那该怎么办?

[未完待续]


没有想到一千字连“物以类聚”都没有讲完,明天继续!

相关文章

  • 信息流应用的崛起(4)

    昨天赶一份项目文档,所以停更了一天。今天继续谈谈今日头条到底是凭什么完成筛选和推荐的。 对于今日头条是如何完成筛选...

  • 信息流应用的崛起

    姓名:王怀帅 学号:16040410035 转载自:http://www.jianshu.com/p/3a799f...

  • 信息流应用的崛起(11)

    从今天开始老土准备认真清算一下之前的烂尾文章。近期的烂尾文章主要有两个系列,一系列是“信息流应用的崛起”,目前是写...

  • 信息流应用的崛起(2)

    上一节说了说“信息流应用是什么”,只是开了个头,没有说透,今天继续! 如果将“信息流应用”定义为“流式浏览+信息聚...

  • 信息流应用的崛起(10)

    又隔了两天,今天继续回到的“信息流应用”的连载上。上文说到只有更加了解用户的需求才能更好的向用户推销(提高广告的转...

  • 信息流应用的崛起(7)

    用一千字介绍”信息流的出现“竟然还到不了”信息流的诞生“,看来老土东拉西扯的能力有提高了!虽然这也不算是什么好能力...

  • 信息流应用的崛起(8)

    搜索引擎的出现极大的改变了新闻浏览模式。很多用户不再将(新闻)门户网站作为浏览新闻的第一站,而是将搜索引擎作为第一...

  • 信息流应用的崛起(3)

    昨天完了“今日头条”作为新型“信息流应用”有两个特征。第一是“其聚合的内容并不是本应用自产的信息,而是大量的来自第...

  • 信息流应用的崛起(9)

    昨天谈到了,当内容和交互都准备好之后,信息流应用也就堂皇登场了。然而老土认为让信息流应用真正得以大火的核心原因既不...

  • 信息流应用的崛起(6)

    前面介绍了一下什么是信息流应用和信息流应用的基本原理。那么信息流应用是怎么一步步走来,一步步火起来的呢?总归不可能...

网友评论

    本文标题:信息流应用的崛起(4)

    本文链接:https://www.haomeiwen.com/subject/feoaixtx.html