本周任务:
1.了解产品
2.构建用户画像(个人偏好中的类别和标签还有国家、场景等自己想)
2.1用到的数据有:用户数据和行为数据
3.社会画像(即物品画像、类别、标签等、网易根据协同过滤,即物品之间的相似性通过机器学习来贴标签)。然后数据找碧波要。
在推荐系统中利用情境信息有多种方法,大致可以分为两类:1.通过情境驱动的查询和搜索产生的推荐,使用这种方法的系统通常使用的情境信息(可能式直接询问并获得用户当前的情绪或兴趣,或从环境中获得当地的时间、天气或地理位置)去查询或搜索某些资料库(如餐厅),同时给用户提供匹配度最好的资源(如附近哪些餐馆在营业)。2.通过情境偏好提取和估计的推荐,使用这种方法的技术试图通过学习来对用户的偏好建模。这可以通过观察系统中用户和其他用户的交互行为,或通过获取用户对以前推荐的物品的偏好反馈。为了对用户的情境敏感属性建模并产生推荐,这些技术会采用基于内容的协同过滤,或者综合各种情境感知的推荐方法,或者引入数据挖掘和机器学习领域的各种智能数据分析技术(如贝叶斯分类器和支持向量机)。
一般来说,传统的二维(用户——物品)推荐系统可以描述为一个函数,它把用户部分偏好数据作为其输入,产生的每个用户的推荐列表作为输出。
8.推荐系统的评估
起初,大多数推荐系统基于准确率(准确预测用户行为的能力)进行评估和排名。然而现在人们普遍认为准确率固然重要,但还不足够部署一个好的推荐系统。在许多应用中人们使用推荐系统不仅式为了预测用户品味的准确率。同时用户可能对发现新物品、迅速发掘多样性物品、隐私保护、系统响应速度以及其他更多的推荐引擎的属性感兴趣。所以我们必须识别出在具体应用上下文中哪些属性会影响推荐系统,然后才能评估系统在相关属性上的运行性能。
下面为推荐系统的评估过程,讨论了三种不同类型的实验:离线实验、用户调查、在线实验
离线实验最简单,它是使用现有的数据和通过对用户行为建模来评估推荐系统的性能,如预测准确性。最后在已经部署的系统上做大量的实验,称为在线实验。
离线实验的目的是过滤不恰当的方法,为成本比较大的用户调查和在线实验提供相对较小的算法候选集进行测试。
8.1得出可靠结论
8.1.2置信度和p值-因幸运而获得结果的概率。当了解估算的可靠性时就用到了置信区间。
8.2推荐系统的属性
在决定选择哪种方法进行推荐时这些属性需要考虑。由于不同的应用程序有不同的需要,系统设计者必须决定对手头的具体应用的哪些重要属性进行评测。一些属性可能会被折衷。
1.构建用户画像的步骤(以用户的观影为实例进行分析):
1.1收集用户画像的数据,看用户画像的数据来源。
1.1.1看用户属性(用户属性用来描述一个用户的“个性”从而与其他用户加以区分)。
1.1.2看用户观影的行为
1.2用户画像特性
1.2.1动态性:从用户画像的数据来源分析,显然用户画像具有较强的动态性,其中,用户属性涉及人口统计特征,相对比较稳定,然而用户的观影行为则是随时间持续增加的,用户在系统内的每次观影行为都使得现有的用户画像丧失时效性。此外,用户会受到周围环境、其他用户等的影响,从而改变其观影偏好。所有这些都将决定了用户画像不可能一尘不变,而是实时动态变化的。这就要求我们设计合理有效的动态更新机制,从而精准的刻画用户。
1.2.2时空局限性:首先在时间上,用户画像的目标是通过精准的刻画用户,从而提供个性化的服务,因此,用户画像对于时效性非常敏感,某一时刻的用户画像对该时刻的推荐结果最为有效,距离时间越远,推荐结果的精确性越低,参考价值越差。
其次,在空间上,不同的应用领域有不同的侧重点,例如营销领域的用户画像主要侧重用户的消费习惯,而在视频推荐领域,用户画像则主要侧重用户的观影喜好,因此,需要针对各自的特点设计相应的用户画像,没有哪个用户画像一经构建就可以适用于所有的应用领域。
2.用户画像建模:
2.1用户定量画像
2.2用户定性画像
2.2.1标签和用户定性画像
(1)如何定义和表示标签?包括标签名称、标签类别、标签值的取值范围等。
(2)如何解释标签?主要是对标签的语义信息进行描述,从语义上给出标签的解释。
(3)如何推理标签?主要是定义相应的推理规则,从而实现标签之间的推理。
(4)如何验证标签?包括标签的定义是否合理,标签关系是否一致、正确等。
然后将这些标签用一个表格来表示。
2.2.2基于知识的用户定性画像分析
基于知识的用户定性画像主要以观众和视频的相关知识作为画像建模的核心。从用户维度来看,相关知识包括用户特征、用户行为、兴趣偏好等;从视频维度来看,相关知识包括视频特征等。视频特征是对视频属性的描述,包括视频的名称、类别、导演、主要演员、所属国家地区、语言、上映年份、时长等。视频特征也与用户兴趣偏好有很大程度的关系。
从知识类型来看,在视频推荐应用中,相关知识的类型主要有以下三种
(1)与用户和视频特征有关的属性知识。
(2)反映用户兴趣偏好的规则知识。
(3)用于推理和确保关系完整性、正确性的约束知识。
2.2.3用户定性画像的构建
构建用户画像的关键是利用本体对用户画像领域中的标签进行表示、验证、推理和解释。本体的结构一般包括类、属性、实例、公理和推理规则。
本体构建的关键步骤:
1.构建领域词汇表:词条名称如电影,类型为类,词义描述为所有电影的父类,所属类别为视频。
2.确定类与类之间的结构,最终形成一种树状结构。
3.定义属性(包括对象属性和数据属性两种)
如词条名称为主题,类型为属性,定义域为视频,值域为主题,,语义描述为影视作品有主题,所属类别为对象属性。
如词条名称为剧情介绍,类型为属性,定义域为视频,值域为字符串型,语义描述为对影视作品内容的简单介绍,所属类型为数据属性。
4.定义实例
例如实例名称为张艺谋,所属类别为导演,说明为中国导演,导演了“红高粱”等作品。
5.定义约束公理和推理规则
2.2.4定性画像知识的存储
对于本体的存储,主要有三种方法:
(1)将本体按照某种结构全部存储在内存中,在内存结构上执行查询操作,其特点是处理速度快,但是由于物理内存的限制,该方法存储大规模的本体信息。
(2)将本体存储为文本文件,该方法简单实用,易于实现。
(3)存在关系型数据库中。
h.a.5画像知识的推理
本体中蕴含了丰富的语义知识,可以对本体知识库进行推理。对于本体使用者来说,推理的作用主要是获得本体中特定形式的知识集合,以及运用本体中的知识来辅助解决涉及语义的应用。
3.群体用户画像分析
在设计推荐系统时,不可能针对所有的用户画像来进行设计,因为不同的用户画像间不可避免存在相互冲突的需求,从而会使得推荐系统难以决断,因此针对系统中存在的大量的用户画像,就需要实施有效的用户画像管理。
用户画像作为目标用户的标签化,不仅仅用来分析目标用户,还应该包含用户间的关联分析,即群体用户画像。
群体用户画像分析的流程主要包括:
(1)用户画像获取。可以通过推荐系统的数据统计模块获得。也可以通过用户访谈和问卷调研。
(2)用户画像相似度计算。根据不同的用户画像计算相互间相似程度,是区分用户群体的重要指标,是开展用户画像聚类的前提条件。
(3)用户画像聚类。根据用户画像间的相似程度,将相似的用户画像聚为一类。
(4)群体用户画像生成。针对不同类别的用户分别建立有代表性的典型用户画像。
3.1用户画像相似度
3.1.1定量相似度计算
3.1.2定性相似度计算
3.1.3综合相似度计算
3.2用户画像聚类
在实际开发中,不能为超过三个的用户画像设计产品,否则相互冲突的需求会让系统功能难以取舍。当我们有多个用户画像时,我们需要考虑用户画像的优先级,在产品设计时,首先考虑满足首要用户画像的需求,然后在不冲突的情况下尽量满足次要用户画像的需求。
用户画像聚类时根据用户画像本身的特征进行分类的一种方法。
4.用户画像管理
用户画像作为一种刻画目标用户,连接用户需求与系统设计的有效工具,用户画像主要包含定性画像定量画像两部分,其中,定性画像主要包括用户的基本特征、行为刻画、兴趣模型和视频表征等,定量画像主要包括用户基础变量、兴趣偏好等可量化的数据特征。
用户画像的表现形式众多,常见的有:(1)关键词法,即一组代表用户属性的特征词。
(2)评分矩阵法,即二维矩阵的行来表示用户,列表示特征项目,行列的交叉点为某用户对某特征项目的评分。
(3)向量空间表示法,给出一组关键词及对应的比重。
(4)本体表示法,以本体模型存储用户的属性和关系。
4.1存储机制
4.1.1关系型数据库
4.1.2NoSQL数据库
目前流行的NoSQL数据库大体可以分为以下几类:
(1)键值存储数据库。
(2)列存储数据库
(3)文档型数据库
(4)图形数据库
4.1.3数据仓库
4.2查询机制
(1)用户画像的用途决定了画像数据主要以查询为主。
(2)在涉及用户画像的大量查询中,通常有很多查询都是重复的,很少一部分查询就占了用户需求的大部分。
4.3定时更新机制
有效的用户画像需要不断地进行完善和持续更新。
用户画像地更新机制按工作流程主要涉及以下几个问题
(1)如何获取实时变化的用户画像数据。
(2)如何设置合适的用户画像更新触发条件。
(3)高效的更新算法。
4.3.1获取实时用户信息
1.静态信息数据
2.动态信息数据
用户不断变化的行为信息,如观看视频、搜索信息、发表评分、接触渠道等,这类信息一般为非结构化或半结构化信息,其收集方式主要为隐式收集。
4.3.2更新触发条件
有三种方式:(1)通过设置一个阈值,当获取的实时画像数据量超过这一阈值时,根据存储的画像数据构建用户画像,(2)设置一个时间周期,每隔该周期时间根据存储的画像数据构建用户画像,(3)首先从增加的数据中挖掘用户画像,然后将其与原先得到的用户画像进行比较,根据比较的结果来决定是否更新。
4.3.3更新机制
用户数据总是处在不断更新的状态,当用户画像数据库发生变化后,如何对已经得到的用户画像进行更新维护是需要解决的重要问题,一个直接的办法是直接更新,即读取所有历史用户数据重新生成用户画像。再者增量更新是指在进行更新操作时,只更新需要改变的地方,不需要更新或者已经更新过的地方则不会重复更新。
5.视频推荐概述
5.1主流推荐方法的分类
5.1.1协同过滤的推荐方法
5.1.2基于内容的推荐方法
5.1.3基于知识的推荐方法
5.1.4混合推荐方法
5.2推荐系统的评测方法
5.3视频推荐与用户画像的逻辑关系
6.协同过滤的推荐方法
分为以记忆为基础的协同过滤和以模型为基础的协同过滤。
7.基于内容的推荐方法(CB)
7.2CB推荐中的特征向量
在CB推荐系统中,需要为每个物品创建一个物品画像用于记录该物品的内容固有属性,也需要为每个用户创建一个用户画像用于记录用户的特定偏好。物品——用户画像的本质是由一些表示特征的向量组成。
7.3基础CB推荐算法、基于TF-IDF的CB推荐算法、基于KNN的CB推荐算法、基于Rocchio的CB推荐算法、基于决策树的CB推荐算法、基于线性分类的CB推荐算法、基于朴素贝叶斯的CB推荐算法。
网友评论