美文网首页读书简友广场想法
机器学习入门-基础数据处理

机器学习入门-基础数据处理

作者: 独人 | 来源:发表于2023-09-06 00:34 被阅读0次

    本文人工翻自Kaggle

    任何机器学习项目的第一步都是熟悉数据。为此会使用 Pandas 库。Pandas 是数据科学家用来探索和处理数据的主要工具。大多数人在代码中将 Pandas 简写为 pd。我们使用命令

    import pandas as pd

    Pandas 库中最重要的部分是 DataFrame。DataFrame 保存的数据类型可以理解为表格。这类似于 Excel 中的工作表或 SQL 数据库中的表格。

    Pandas 拥有功能强大的方法,可用于处理这类数据。

    例如,我们将查看澳大利亚墨尔本的房价数据。在上机练习中,您将把相同的过程应用到一个新的数据集上,该数据集包含爱荷华州的房价。

    示例(墨尔本)数据的文件路径为 ./input/melbourne-housing-snapshot/melb_data.csv。

    我们使用以下命令加载并查看数据:

    # 将文件路径保存为变量,以便于访问

    melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'。

    # 读取数据并将数据存储在名为 melbourne_data 的数据帧中

    melbourne_data = pd.read_csv(melbourne_file_path)

    # 打印墨尔本数据中的数据摘要

    melbourne_data.describe()

    结果显示了原始数据集中每列的 8 个数字。第一个数字,即计数,显示有多少行不存在缺失值。

    出现缺失值的原因有很多。例如,在调查一间卧室的房子时,就不会收集第二间卧室的大小。我们将回到缺失数据的话题。

    第二个值是平均值,也就是平均数。其下的 std 是标准偏差,用来衡量数值的分散程度。

    要解释最小值、25% 值、50% 值、75% 值和最大值,想象一下将每列从最小值到最大值排序。第一个(最小)值是最小值。如果你在列表中走过四分之一的路程,你会发现一个数字大于 25% 的值,小于 75% 的值。这就是 25% 值(读作 "第 25 百分位数")。第 50 个百分位数和第 75 个百分位数的定义类似,最大值是最大的数字。

    相关文章

      网友评论

        本文标题:机器学习入门-基础数据处理

        本文链接:https://www.haomeiwen.com/subject/wlhkvdtx.html