探索性数据分析(Exploratory Data Analysis)简称EDA,往往是我们了解、挖掘数据的至关重要的步骤。
EDA的主要工作有:
(1)了解数据基本属性:初步加载清洗数据、描述数据(了解数据大小、数据类型)、数据的异常情况分析(缺省值和异常值的刻画、处理)
(2)了解数据间的关系:数据分布的刻画、数据间关系刻画、数据与目标之间的关系刻画
1、数据加载和描述
数据下载地址:https://tianchi.aliyun.com/competition/entrance/231784/information


(1) 显示原始数据
data.head(10),显示训练数据的前10行,结果见下图:

这里可以看出,数据大小为 10*31,有31列数据,但显示的时候,仅显示了一部分列。如果想显示全部列,可以这样设置,设置后显示结果如下:
pd.set_option('display.max_rows', None) #设置最大显示行数
pd.set_option('display.max_columns', None) #设置最大显示列数

(2) 查看数据信息
data.info 包括每个字段的名称、非空数量、字段的数据类型,结果如下:

从结果中可以看出,该df,共有150000行,索引从0-149999,共有31列,每一列的名称、非空行数、数据类型均给出;
且给出该df 有 20个float64, 10个int64, 1个object 数据类型;
占用内存大小为35.5+ MB
(3)数据缺省值刻画
找出有缺省值的数据列,并给出缺省的行数,采用以下函数计算:

运行结果:
train 空值列名称,和空值个数:
{'model': 1, 'bodyType': 4506, 'fuelType': 8680, 'gearbox': 5981}
(4)数据统计特征刻画
data.describe(),统计出所有列的以下信息:元素个数、均值、标准差、最小值、25%、50%、75%、以及最大值。从这里我们可看出,数据的取值范围和大致分布,对应数据有初步的了解。

2、数据间关系刻画
(1)数据大致分类
根据数据类型,对数据进行初步分类,可分为,时间类型、连续类型、离散类型。这里我们可以通过统计大致区分连续数据和离散数据。


从上述结果可以看出,v_0至v_14数据取值多样化,占总比96%,可证明其为连续数值。同时,我们可以观测出部分变量的可取值范围,对数据有初步的了解。
(2)数据间关系刻画
画图可采用seaborn 库,据图函数可参考,因分析关系较多,且与个人假设相关,后续如果时间允许,会添加部分自认为重要的关系结果图。
https://blog.csdn.net/qq_40195360/article/details/86605860
网友评论