翻译自 Kaggle
翻译 by Wyatt Huang
转载请著名
引子
在上一章节,我们对模型的概念有了一个基础的了解,在这节课中,我们会用一个叫 pandas 的数据处理库,官网:http://pandas.pydata.org 熟悉一下数据
使用 pandas 熟悉你的数据
任何机器学习项目的第一步都是熟悉数据。你将使用Pandas库。 Pandas是科学家用于探索和操纵数据的主要工具。大多数人在他们的代码中将pandas缩写为pd:
import pandas as pd
Pandas库中最重要的部分是DataFrame。 DataFrame包含您可能认为是表的数据类型。这类似于Excel中的工作表或SQL数据库中的表。
对于你处理数据的各种需求,pandas 都会有相对于简单的处理办法
例如,我们将查看并处理澳大利亚墨尔本的房价数据。
我们使用以下命令加载和浏览数据:
# 数据文件的位置
melbourne_file_path = 'data/melb_data.csv'
# 读取数据
melbourne_data = pd.read_csv(melbourne_file_path)
# 打印数据的简介
melbourne_data.describe()
dataframe
数据简介包含什么
- count: 数据总和
- mean:平均数
- std:方差
- min:最小值
- 25%:数据中位于25%的数据,统计学中我们也叫这个数据为
Q1
- 50%:数据中位于50%的数据,统计学中我们也叫这个数据为
Q2
- 75%:数据中位于75%的数据,统计学中我们也叫这个数据为
Q3
-
max:最大值
这个是箱型图,不知道是什么的可以自行百度
网友评论