美文网首页
数据清洗

数据清洗

作者: 权氏小龙虾 | 来源:发表于2019-01-30 20:53 被阅读0次

数据清洗是指对提供的原始数据进行一定的加工,使得其方便后续的特征抽取。其与特征抽取的界限有时也没有那么明确。常用的数据清洗一般包括:

◆ 数据的拼接

◇ 提供的数据散落在多个文件,需要根据相应的键值进行数据的拼接。

◆ 特征缺失值的处理

◇ 特征值为连续值:按不同的分布类型对缺失值进行补全:偏正态分布,使用均值代替,可以保持数据的均值;偏长尾分布,使用中值代替,避免受 outlier 的影响;

◇ 特征值为离散值:使用众数代替。

◆ 文本数据的清洗

◇ 在比赛当中,如果数据包含文本,往往需要进行大量的数据清洗工作。如去除HTML 标签,分词,拼写纠正, 同义词替换,去除停词,抽词干,数字和单位格式统一等。


数据分析

处理的数据是交易数据  eg: 用户订单    用户存取款    用户的通话短信

使用的少量数据

采样分析  数据量过大可采用采样分析

机器学习

处理的数据是行为数据    eg: 搜索历史  点击历史  浏览历史  评论

使用的海量数据 

数据分析是对历史的回顾

eg:  过去3年,前100名优质客户    和年初计划相比,上个季度销售额如何。。。。

机器学习是对未来的预测


相关文章

  • 第三章-数据预处理

    数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。 3.1数据清洗 数据清洗主要是删除原始数据集中的...

  • 2019-09-14 分析lianjia数据(四)——Power

    分析lianjia房源数据(一)——Python数据清洗 分析lianjia房源数据(二)——SPSS数据清洗 分...

  • 2019-10-03 分析lianjia数据(五)——生成词云图

    分析lianjia房源数据(一)——Python数据清洗 分析lianjia房源数据(二)——SPSS数据清洗 分...

  • 2019-08-19 分析lianjia数据(三)——SPSS数

    前置内容——lianjia数据清洗 分析lianjia房源数据(一)——Python数据清洗 分析lianjia房...

  • 数据清洗的步骤是什么(上)

    数据清洗工作是数据分析工作中不可缺少的步骤,这是因为数据清洗能够处理掉肮脏数据,如果不清洗数据的话,那么数据分析的...

  • 机器学习-数据清洗

    本文由brzhang发表 数据清洗 首先,为何需要对数据进行清洗 数据清洗的工作绝壁是非常枯燥的,做数据研究的的人...

  • 数据清洗

    从两个角度上看,数据清洗一是为了解决数据质量问题,二是让数据更适合做挖掘。不同的目的下分不同的情况,也都有相应的解...

  • 数据清洗

    数据清洗 重复数据处理(推荐使用顺序) 数据透视表可统计数据重复次数和重复数据 选中A、B两列,点击插入选项卡-数...

  • 数据清洗

  • 数据清洗

    数据清洗是指对提供的原始数据进行一定的加工,使得其方便后续的特征抽取。其与特征抽取的界限有时也没有那么明确。常用的...

网友评论

      本文标题:数据清洗

      本文链接:https://www.haomeiwen.com/subject/apustxtx.html