美文网首页
数据清洗

数据清洗

作者: 权氏小龙虾 | 来源:发表于2019-01-30 20:53 被阅读0次

    数据清洗是指对提供的原始数据进行一定的加工,使得其方便后续的特征抽取。其与特征抽取的界限有时也没有那么明确。常用的数据清洗一般包括:

    ◆ 数据的拼接

    ◇ 提供的数据散落在多个文件,需要根据相应的键值进行数据的拼接。

    ◆ 特征缺失值的处理

    ◇ 特征值为连续值:按不同的分布类型对缺失值进行补全:偏正态分布,使用均值代替,可以保持数据的均值;偏长尾分布,使用中值代替,避免受 outlier 的影响;

    ◇ 特征值为离散值:使用众数代替。

    ◆ 文本数据的清洗

    ◇ 在比赛当中,如果数据包含文本,往往需要进行大量的数据清洗工作。如去除HTML 标签,分词,拼写纠正, 同义词替换,去除停词,抽词干,数字和单位格式统一等。


    数据分析

    处理的数据是交易数据  eg: 用户订单    用户存取款    用户的通话短信

    使用的少量数据

    采样分析  数据量过大可采用采样分析

    机器学习

    处理的数据是行为数据    eg: 搜索历史  点击历史  浏览历史  评论

    使用的海量数据 

    数据分析是对历史的回顾

    eg:  过去3年,前100名优质客户    和年初计划相比,上个季度销售额如何。。。。

    机器学习是对未来的预测


    相关文章

      网友评论

          本文标题:数据清洗

          本文链接:https://www.haomeiwen.com/subject/apustxtx.html