本文人工翻自Kaggle
任何机器学习项目的第一步都是熟悉数据。为此会使用 Pandas 库。Pandas 是数据科学家用来探索和处理数据的主要工具。大多数人在代码中将 Pandas 简写为 pd。我们使用命令
import pandas as pd
Pandas 库中最重要的部分是 DataFrame。DataFrame 保存的数据类型可以理解为表格。这类似于 Excel 中的工作表或 SQL 数据库中的表格。
Pandas 拥有功能强大的方法,可用于处理这类数据。
例如,我们将查看澳大利亚墨尔本的房价数据。在上机练习中,您将把相同的过程应用到一个新的数据集上,该数据集包含爱荷华州的房价。
示例(墨尔本)数据的文件路径为 ./input/melbourne-housing-snapshot/melb_data.csv。
我们使用以下命令加载并查看数据:
# 将文件路径保存为变量,以便于访问
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'。
# 读取数据并将数据存储在名为 melbourne_data 的数据帧中
melbourne_data = pd.read_csv(melbourne_file_path)
# 打印墨尔本数据中的数据摘要
melbourne_data.describe()
结果显示了原始数据集中每列的 8 个数字。第一个数字,即计数,显示有多少行不存在缺失值。
出现缺失值的原因有很多。例如,在调查一间卧室的房子时,就不会收集第二间卧室的大小。我们将回到缺失数据的话题。
第二个值是平均值,也就是平均数。其下的 std 是标准偏差,用来衡量数值的分散程度。
要解释最小值、25% 值、50% 值、75% 值和最大值,想象一下将每列从最小值到最大值排序。第一个(最小)值是最小值。如果你在列表中走过四分之一的路程,你会发现一个数字大于 25% 的值,小于 75% 的值。这就是 25% 值(读作 "第 25 百分位数")。第 50 个百分位数和第 75 个百分位数的定义类似,最大值是最大的数字。
网友评论