1.推荐原理解析
推荐系统的本质:是从一个巨大的内容池里(涵盖上百万文章、图片、小视频、问答等体裁),依据内容、用户以及用户对内容感兴趣的程度三个要素,给当前用户匹配出最感兴趣的几篇文章。
1.1系统如何理解创作内容?平台依托于关键词识别技术做内容刻画。先提取出文章中的关键词(高频词规则、独特性规则),然后根据关键词,将内容进行粗分类,然后根据细分领域的关键词,对分类进行细化。(注:在标题中最好露出具有代表性的名词、代词等实体词的全程,虚词、转折词、非常规词、缩写或外号不会被统计。)
1.2系统如何理解用户需求?平台刻画用户三大类特征/标签:①用户的基本信息,比如年龄、性别、地域等;②用户的行为分析,比如他订阅的账号、历史浏览的文章以及他关注的话题等;③最后系统会根据用户的信息和行为进行分析计算,计算用户喜好的分类、话题、人物等其他信息。
1.3系统如何精准地将内容推荐给兴趣用户?依据推荐算法,即利用文章的特征、用户喜好特征以及环境因素,拟合一个用户对内容满意度的函数。它会估算用户对每一篇文章的点击概率,然后从巨大的内容池里,将所有的文章按照兴趣由高到低的排序。前十名的文章会在此时脱颖而出,被推荐到用户的手机上进行展现。
[if !supportLists]2. [endif]一篇文章在推荐系统里的生命周期内推荐历程
2.1初审:文章撰写完成后,先进入内容审核流程(初审)。机器模型会优先判断它的风险级别,判断有无违反国家相关法律的风险,然后根据风险级别将内容分发给不同的审核人员进行处理,在机器和人工的共同配合下,内容会以非常快的速度通过初审,从而立即展现在读者的面前。
2.2“冷启动”:这是相较于已经火起来文章的推荐性概念,就是新的文章在发表之后,去如何获取最初始几千个展现。初审结束后,平台会进行一些加权推荐,将这些篇文章首先暴漏给几千个用户。基于这几千次的用户点击、分享、点赞,平台就可以判断,哪些人群会喜欢这篇文章,哪些人群绝对不会喜欢。当文章在几千次展现之后平台就会认为已经给足了冷启动的机会,就会撤销对这一篇文章的加权,这个文章后续能不能再被推出来,就靠这篇文章本身的创作实力了。
2.3正常推荐:通过了“冷启动”的文章,平台会搜集到最基础的推荐效果。如果一篇文章推荐效果很好,系统就会认为这篇文章是有潜质的,会进一步扩量推荐给更多的用户,可能是一万个三万个五万个,甚至更多。如果一篇文章的用户阅读兴趣不是特别大,系统就会收紧推荐,继续观察文章的表现。
2.4复审:在正常推荐过程,基于各种各样的用户行为,系统会监测到很多数据上的异常,比如一些文章的点击率特别高,但与此同时负面评论与举报又特别多的现象,这时这篇文章会再次进入审核流程,平台称之为“复审”。复审会直接影响推荐文章的后续推荐。
2.5继续/停止推荐:在复审中,如果平台发现存在标题党、封面党、低俗、虚假等问题,系统就会停止这一篇文章的推荐。如无,在继续推荐。
[if !supportLists]3. [endif]推荐过程中常见问题
·为什么推荐流程“不稳定”?可能是因为你不知道以下这几个原因:
一是系统对文章的消重策略。为了保护站内的原创内容,提升用户的阅读体验,多篇相似文章中,平台会优先推送其中的原创文章。第二是同类文章的挤压。针对同一个热点内容,头条的推荐系统会从中选取一篇最适合的推送给用户。如果你也写了一个相似的内容,但是其他的文章表现的特别好,你的文章就有可能不会得到很好的推荐。也就是说,每一篇文章的推荐量既取决于当时具体的环境,也取决于当时整个内容池里面其他文章的表现,那么一篇文章的推荐效果,和这篇文章本身质量,也会有很大的相关性。
·究竟怎么做才可以避免消重呢?
答:首先第一个是坚持优质的原创,不做低质内容的无用功。头条整体对于低质内容的识别手段和打压手段正在不断进化,低质内容的生存空间必将越来越窄。第二大家面对热点内容的时候,谨慎地去追逐。第三,大家撰写的文章可以带有鲜明的个人特色。
·为什我的推荐效果不好?
答:如果一篇文章推荐不好,很有可能是以下几个原因导致的:首先,可能是作者的创作内容质量不稳定,系统会对作者的创作能力进行评估。如果文章的质量不稳定,就会导致无法很好的评估作者的创作能力,进而影响这篇文章的最终推荐效果。第二就是创作的内容不够垂直,平台会判断一个作者的专业度,并优先推送专业度高的作者的文章。如果作者经常换创作领域的话,就会导致他的专业度较难被评估,进而影响推荐。第三就是创作的内容受众较少,如果你的文章是某个小众领域,目标人群是有限的,例如动漫类的文章,头条喜欢动漫的人只有这么多,推荐系统把这些人群推荐完了,后面就没有办法推荐给其他人了。最后就是内容时效短,比如报道体育类赛事的进展,可能1小时后比分就会有较大的变化,那这种情况下就不会继续再推送这个内容了。
·我这个文章推荐了一半,展现量都很好,为什么忽然就不推荐了呢?
答:很有可能是因为文章出现了一些指标上的问题。比如它的点击率高得吓人,但负面评论也多得吓人,在这种情况下,文章或视频就会进入复审流程,在复审中,平台就会对文章的质量进行严格的审核,主要的问题大概会有四类:第一是标题党,如果标题过度夸张,故意营造悬念、无中生有、歪曲事实、题文不符、低俗引导等,都会被认为是标题党,而无法通过审核。第二是封面党或者低俗,如果封面不清晰涉及低俗引导的行为,都会被复审拦截。那三种就是文章会涉及虚假,如果一个文章违背科学常理,描述未被证实,或与已发生事实相背,就会被认为是一篇虚假的内容。比如,《<战狼3>演员名单流出,天王华仔愿意零片酬参演,阵容激动人心》,华仔并没有出演,这篇文章与事实明显相悖,就一定无法通过复审。第四种包含推广信息,为了保证用户的体验和权益,避免用户受到错误引导遭受损失,平台会对文章的推广信息有非常严格的控制,如果文章中包含二维码、手机号、微信号等各种联系方式,或者包含一些恶意推广的内容,比如违规医疗、违规财经等信息,都有可能被平台审核拦截。当然了其它的因素,也会影响平台的推荐效果,比如冷启动的推荐效果差,在冷启动阶段,文章的点击率比较低,系统就会认为文章不适合推荐给其他的用户,就会减少接下来的推荐量。此外在冷启动阶段,文章会被优先推荐给粉丝,那么粉丝的数量质量以及对文章的喜好度都会影响文章的推荐效果,此外文章还会受到外部的影响。如果当前的热点已经过时,那么对应的受众就会减少,文章推荐自然会受到影响,以上呢就是在推荐中常见的一些问题。
说明:本文来源于今日头条的公开课第一课《机器如何读懂你的内容?今日头条推荐机制大揭秘》,纯粹是简要版课程笔记。
网友评论