美文网首页
Kaggle 教程2 -- 熟悉数据

Kaggle 教程2 -- 熟悉数据

作者: TwinIsland | 来源:发表于2019-02-22 23:17 被阅读0次

翻译自 Kaggle
翻译 by Wyatt Huang
转载请著名

引子

在上一章节,我们对模型的概念有了一个基础的了解,在这节课中,我们会用一个叫 pandas 的数据处理库,官网:http://pandas.pydata.org 熟悉一下数据

使用 pandas 熟悉你的数据

任何机器学习项目的第一步都是熟悉数据。你将使用Pandas库。 Pandas是科学家用于探索和操纵数据的主要工具。大多数人在他们的代码中将pandas缩写为pd:

import pandas as pd

Pandas库中最重要的部分是DataFrame。 DataFrame包含您可能认为是表的数据类型。这类似于Excel中的工作表或SQL数据库中的表。

对于你处理数据的各种需求,pandas 都会有相对于简单的处理办法

例如,我们将查看并处理澳大利亚墨尔本的房价数据

我们使用以下命令加载和浏览数据:

# 数据文件的位置
melbourne_file_path = 'data/melb_data.csv'
# 读取数据
melbourne_data = pd.read_csv(melbourne_file_path) 
# 打印数据的简介
melbourne_data.describe()
dataframe

数据简介包含什么

  • count: 数据总和
  • mean:平均数
  • std:方差
  • min:最小值
  • 25%:数据中位于25%的数据,统计学中我们也叫这个数据为 Q1
  • 50%:数据中位于50%的数据,统计学中我们也叫这个数据为 Q2
  • 75%:数据中位于75%的数据,统计学中我们也叫这个数据为 Q3
  • max:最大值


    这个是箱型图,不知道是什么的可以自行百度

相关文章

网友评论

      本文标题:Kaggle 教程2 -- 熟悉数据

      本文链接:https://www.haomeiwen.com/subject/syzyyqtx.html