美文网首页
推荐系统 --对数据不平衡的解决

推荐系统 --对数据不平衡的解决

作者: a十二_4765 | 来源:发表于2019-01-15 13:31 被阅读13次

集成下采样/欠采样

EasyEnsemble

采用不放回的数据抽取方式抽取多数类别样本数据,然后将抽取出来的数据和少数类别数据组合训练一个模型;多次进行这样的操作,从而构建多个模型,然后使用多个模型共同决策/预测

BalanceCascade

利用Boosting这种增量思想来训练模型;先通过下采样产生训练集,然后使用Adaboost算法训练一个分类器;然后使用改分类器多对所有的大众样本数据进行预测,并将预测正确的样本从大众样本数据进行预测,并将预测正确的样本从大众样本数据中删除,重复迭代上述俩个操作,直到大众样本数据

量等于小众样本数据量

ENN

对于多数类别样本数据而言如果这个样本的大部分k近邻样本都和自身类别不一样,那我们就将其删除,然后使用删除后的数据训练模型

RENN 对于多数类别样本数据而言,如果这个样本的大部分k近邻样本都和自身类别不一样,那我们就将其删除,重复性的进行上述的删除操作,直到数据集无法在被删除后,使用此时的数据集训练模型

过采样/上采样

和欠采样采用同样的原理,通过抽样来增加少数 样本的数目,从而达到数据平衡的目的。一种简单的方式就是通过有放回抽样,不断的从少数类别样本数据中抽取样本,然后使用抽取样本+原始数据组成训练数据集来训练模型;不过该方式比较容易导致过拟合,一般抽样样本不要超过50%

采用数据合成的方式生成更多的样本,该方式在小数据集场景下具有比较成功的案例 常见栓发是smote算法 该算法利用小众样本在特征空间的相似性来生成新样本

对于正负样本极不平衡的情况下,其实可以换一种思路/角度来看待这个问题:可以将其看成一分类或者异常检测问题,在这类算法应用中主要就是对于其中一个类别进行建模,然后对所有不属于这个类别特征的数据就认为是异常数据,

缺失值的填充

填充缺省值内容是一个比较重要的过程,也是我们常用的一种缺省值解决方案,一般采用下面几种方式进行数据的填充:

以业务知识或经验推测填充缺省值

以同一字段指标的计算结果(均值,中位数,众数等)填充缺省值

以不同字段指标的计算结果来推测性的填充缺省值

在scikit中主要通过impiter 来进行填充

相关文章

  • 推荐系统 --对数据不平衡的解决

    集成下采样/欠采样 EasyEnsemble 采用不放回的数据抽取方式抽取多数类别样本数据,然后将抽取出来的数据和...

  • 网络与新媒体概述 笔记2

    1.、 背景:互联网资源不平衡的状态的解决 解决数据、计算和存储不平衡的状态 云计算:可用,便捷,按需的网络访问,...

  • 使用REST API接口优化老系统数据读写操作

    为了解决老系统的数据查询问题,我们最近规划了一个数据仓库,通过定期同步数据来解决周边系统对老系统数据的查询需求。然...

  • 推荐系统实践

    搜索和推荐,都是为了解决信息过载的问题 搜索依赖query,但是推荐依赖用户的行为数据 推荐系统评价指标包括很多,...

  • 文章推荐系统 | 二、同步业务数据

    推荐阅读:文章推荐系统 | 一、推荐流程设计 在推荐系统架构中,推荐系统的数据库和业务系统的数据库是分离的,这样才...

  • octave实现协同过滤推荐算法

    octave实现协同过滤推荐算法 标签:推荐算法 这是对关于电影评分的数据集使用协同过滤算法,实现推荐系统。 数据...

  • octave实现协同过滤推荐算法

    octave实现协同过滤推荐算法 标签:推荐算法 这是对关于电影评分的数据集使用协同过滤算法,实现推荐系统。 数据...

  • Spark解决数据主键key倾斜的思路

    Spark解决数据主键key倾斜的思路 0. 数据倾斜 概念 对Spark/Hadoop这样的大数据系统来讲,数据...

  • Spark ML LR 用 setWeightCol 解决数据不

    前言 如题,记录在Spark ML LR中如何解决数据不平衡。参考:Dealing with unbalanced...

  • 2018CIKM-RippleNet: Propagating

    作者及单位 解决问题 基于知识图谱的推荐系统能够缓解数据的稀疏性以及冷启动问题,并且可以增加推荐系统的多样性和可解...

网友评论

      本文标题:推荐系统 --对数据不平衡的解决

      本文链接:https://www.haomeiwen.com/subject/aixydqtx.html