美文网首页
Kaggle 教程2 -- 熟悉数据

Kaggle 教程2 -- 熟悉数据

作者: TwinIsland | 来源:发表于2019-02-22 23:17 被阅读0次

    翻译自 Kaggle
    翻译 by Wyatt Huang
    转载请著名

    引子

    在上一章节,我们对模型的概念有了一个基础的了解,在这节课中,我们会用一个叫 pandas 的数据处理库,官网:http://pandas.pydata.org 熟悉一下数据

    使用 pandas 熟悉你的数据

    任何机器学习项目的第一步都是熟悉数据。你将使用Pandas库。 Pandas是科学家用于探索和操纵数据的主要工具。大多数人在他们的代码中将pandas缩写为pd:

    import pandas as pd
    

    Pandas库中最重要的部分是DataFrame。 DataFrame包含您可能认为是表的数据类型。这类似于Excel中的工作表或SQL数据库中的表。

    对于你处理数据的各种需求,pandas 都会有相对于简单的处理办法

    例如,我们将查看并处理澳大利亚墨尔本的房价数据

    我们使用以下命令加载和浏览数据:

    # 数据文件的位置
    melbourne_file_path = 'data/melb_data.csv'
    # 读取数据
    melbourne_data = pd.read_csv(melbourne_file_path) 
    # 打印数据的简介
    melbourne_data.describe()
    
    dataframe

    数据简介包含什么

    • count: 数据总和
    • mean:平均数
    • std:方差
    • min:最小值
    • 25%:数据中位于25%的数据,统计学中我们也叫这个数据为 Q1
    • 50%:数据中位于50%的数据,统计学中我们也叫这个数据为 Q2
    • 75%:数据中位于75%的数据,统计学中我们也叫这个数据为 Q3
    • max:最大值


      这个是箱型图,不知道是什么的可以自行百度

    相关文章

      网友评论

          本文标题:Kaggle 教程2 -- 熟悉数据

          本文链接:https://www.haomeiwen.com/subject/syzyyqtx.html