数据质量的三要素:准确性、完整性和一致性。然而,现实世界的大型数据库和数据仓库的数据都有不正确、不完整、不一致的特点,其原因或是由于采集错误、或是人为掩盖缺失、或由于格式不一致、或由于数据无法得到等
影响数据质量的还有时效性、可信性、可解释性。因此要进行数据预处理。
数据预处理技术:可以做到数据清理用来清除数据中的噪声,纠正不一致;数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库;数据归约通过如聚集、删除冗余特征或聚类来降低数据的规模;数据变换(如规范化)把数据压缩到较小的区间,如[0,1],可以提高涉及距离度量的挖掘算法的准确率和效率。(参考资料https://blog.csdn.net/fjssharpsword/article/details/77034806)
数据预处理(Preprocessing data):
http://scikit-learn.org/stable/modules/preprocessing.html#standardization-or-mean-removal-and-variance-scaling
学习泰塔尼克号案例ML案例:
进行数据预处理大致有2步:
第一步:对缺失值进行填充(一般用均值进行填充)
类别的缺失值采用最多的值填充
all_data['Embarked'] = all_data['Embarked'].fillna('S')
数值型缺失值采用中位数填充
all_data = all_data.fillna(all_data.median())
all_data.describe()
第二步:数值转换操作。处理不能识别的字符,一般机器学习算法解决不了字符而是数字(所以sex列的不能处理的字符值(male,female)要转换为int值)
cc.png
另外数据变换,其策略主要包括以下几种:
光滑:去掉噪声;
属性构造:由给定的属性构造出新属性并添加到数据集中。例如,通过“销售额”和“成本”构造出“利润”,只需要对相应属性数据进行简单变换即可
聚集:对数据进行汇总。比如通过日销售数据,计算月和年的销售数据;
规范化:把数据单按比例缩放,比如数据标准化处理;
离散化:将定量数据向定性数据转化。比如一系列连续数据,可用标签进行替换(0,1);
机器学习里数据预处理及特征工程总结(参考资料:https://blog.csdn.net/yawei_liu1688/article/details/78674453)
一、 获取数据,数据抽样:如何保证取样数据的质量?是否在足够范围内有代表性?数据样本取多少合适?如何分类(训练集、测试集、验证集)等等。当要处理或者要分析的数据量比较大,而我们的计算机或者平台不支持开展全量数据分析时,利用抽样技术进行样本分析往往是一个好的主意,其中抽样技术有:简单随机抽样、2.系统抽样、整群抽样等
二、 数据探索(数据质量稽核和特征分析):根据观测、调查收集到初步的样本数据集后,接下来要考虑的问题是:样本数据集的数量和质量是否满足模型构建的要求?有没有出现从未设想过的数据状态?其中有没有什么明显的规律和趋势?各因素之间有什么样的关联性?数据探索就是通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程。数据探索可以从数据质量分析和数据特征分析等两个角度进行展开:
1 数据质量分析:是数据挖掘中数据准备过程中的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据
2 数据特征分析:对数据进行质量分析以后,可以通过绘制图表、计算某些特征量等手段进行数据的特征分析。主要通过分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析等角度进行展开。
三、 数据预处理和清洗(data preprocessing):是指在主要的处理以前对数据进行的一些处理,现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
网友评论