美文网首页
算法实际表现和数据污染问题

算法实际表现和数据污染问题

作者: 平仄_pingze | 来源:发表于2018-06-04 15:49 被阅读12次

推荐系统初上线后,表现很可能低于算法预期。一部分原因是,实际数据并不像测试数据那样合理。尤其可能存在部分特异数据,严重影响推荐效果。

举个例子:基于用户兴趣直接推荐。用户兴趣、物品都被表现为特征向量,通过统计用户和物品向量中相同项值之积的综合,表现用户和物品的相似关系。

物品的特征一般是TFIDF的结果。
用户特征是其喜好的物品特征的合成,再归一化的结果。

假设,用户A,归一化特征为[(F1, 1.0), (F2, 0.7), (F3, 0.5),...]
那么对物品B和C,B特征为[(F1, 0.7), (F3, 0.2),...],C特征为[(F2, 0.7), (F3, 0.3),...]
结果B比C更应该被推荐。
以上是正常的情况。

这时,添加大量的物品,特征为[F1, 1.0]。这些物品计算结果都为1.0*1.0=1.0,可能比绝大部分物品都更容易被推荐,即使这些单特征物品是信息很少,不应该被推荐的物品。

而且,在TFIDF运算中,越是内容丰富的,各特征值都不会特别高;反而一两个词的,特征值会很高。(一个就是1.0)

解决这个问题,一般可以:
1、物品特征归一化,最大值为1.0。
2、过滤特征向量过短的物品。

相关文章

  • 算法实际表现和数据污染问题

    推荐系统初上线后,表现很可能低于算法预期。一部分原因是,实际数据并不像测试数据那样合理。尤其可能存在部分特异数据,...

  • 快排还能变出花儿?——浅析快排算法的2种写法(尤其考研党要特别注

    在数据结构和算法的学习中,一种经典的算法——快速排序算法(简称快排),由于其优秀的性能,在解决实际问题中有着特别出...

  • 数据结构与算法

    概述 程序 = 数据结构 + 算法,数据结构和算法与语言无关,数据结构是管理和存储数据的方法,算法是解决问题的方法...

  • 算法(13)-近似算法

    很多实际问题是NP完全问题, 那么求解有三种策略: (1)如果实际输入数据规模较小, 用指数级算法直接求解 (2)...

  • 02数据结构与算法复杂度分析上

    数据结构与算法之美专栏笔记 1. 为什么要学习数据结构和算法 数据结构和算法本身解决的是“快”和“省”的问题,让代...

  • 2018-05-19 二 谈谈算法

    一、数据结构和算法算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作...

  • 03.python算法基础知识理解

    程序 = 数据结构+算法一个程序,有多种解决实际问题的解法,就涉及到算法;听说多训练算法思维,测试过程基本也不会漏...

  • 数据结构和算法的关系

    数据结构和算法不是并列的关系, 它们构成了层次化的结构. 算法 抽象数据结构 基本数据结构 算法 DP 问题 回溯...

  • 数据结构和算法-C语言2-初识算法

    数据结构与算法-目录 什么是算法呢? 算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有线序列,并且每条指...

  • iOS进阶之算法与数据结构基础篇(一)

    算法与数据结构 算法:算法就是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每个指令表示⼀个或多...

网友评论

      本文标题:算法实际表现和数据污染问题

      本文链接:https://www.haomeiwen.com/subject/pfkysftx.html