美文网首页
推荐策略(3)——内容画像

推荐策略(3)——内容画像

作者: 奕心的世界漂流 | 来源:发表于2019-04-11 10:58 被阅读0次

    不同领域的内容画像差别比较大,比如电商产品推荐是基于商品价格、类型、品牌等,音乐产品推荐是基于风格、歌手、作曲人等,本篇以新闻资讯类产品为例,分享一下内容画像的构建。

    首先,看一张图。

    内容推荐系统

    一、内容画像的来源

    内容画像主要来源于内容本身(内容标签漏斗(垂直领域—细分领域—关键词)、时效性(如股票)、地域信息(如本地新闻)、内容风格(聚类算法))、内容发布者(参考头条指数,包括活跃度、原创度、垂直度、健康度、互动度度等)、用户行为(转发or举报、基于用户的协同推荐)。

    二、如何构建内容画像

    (1)数据抓取

    今日头条数据来源于媒体新闻(合作方)、头条号、自媒体,由抓取系统负责获取。生产的内容放进内容池,经过一些筛选、过滤(低俗内容,先机器再人工),生成固定的格式和唯一的文本id。

    (2)文本挖掘

    文本挖掘是数据挖掘的一种,最重要最基本的应用是实现文本的分类(有监督)、聚类(无监督)、自动摘要。

    分类:基于已有的分类体系,减少搜索成本,采用统计学习或机器学习来实现,如贝叶斯分类、K近邻分类。

    聚类:提供大规模文档集内容的总结,减轻浏览相关内容的过程,采用贝叶斯聚类、K近邻聚类等方法。

    自动摘要:一类是完全使用原文中的句子来生成文摘,另一类是可以自动生成句子来表达文档的内容。

    文本挖掘过程:

    (1)获取文本

    (2)文本预处理——删除不相关信息

    (3)文本的语言学处理——分词(词典、词频统计、字标注)、标注、去除停用词

    (4)文本的数学处理——降维、人工挑选影响力大的特征、数学统计处理(tf-idf)

    (5)分类聚类——矩阵的分类与聚类

    (6)数据可视化

    (3)用户反馈

    内容画像随着用户的反馈而不断完善,对新内容来说,这个从0到1的过程就是冷启动。从内容本身来说,可以根据用户评论、用户画像来进一步完善;从内容推荐权重来说,如果在冷启动过程中没有足够的正向反馈,就会降低权重,如果有了很高的点击量就会获得更大的推荐权重。

    相关文章

      网友评论

          本文标题:推荐策略(3)——内容画像

          本文链接:https://www.haomeiwen.com/subject/ngoziqtx.html