一、数据质量分析
1. 了解数据集的大小维度及样本各项记录的含义
主要使用到的函数方法:
df.shape # 数据集的维度
df.columns # 数据集列名
df.info() # 数据集的各列的基本信息:列名、数量、类型……
df.describe() # 对数据集进行基本的统计信息
df.head() # 数据集前几行
df.tail() # 数据集最后几行
2. 对数据集进行缺失值分析、异常值分析
主要使用函数:
df.isnull() # 查看是否为Null值
df.unique() # 查看非重复列值
二、数据特征和特征分布
1. 对三种渔船的轨迹进行可视化,找到之间的区分性
2. 对三种渔船的速度、方向两个变量进行分析
1) 数据特征
可视化分析三种渔船的速度、方向,比较之间的异同点、相似性
2) 特征分布
用核密度图显示三种渔船在速度、方向上的分布情况
网友评论