机器学习入门-基础数据处理

作者: 独人 | 来源:发表于2023-09-06 00:34 被阅读0次

机器学习—路线图
机器学习入门——实战篇之强化学习
机器学习入门——实战篇之非监督学习
机器学习入门——实战篇之深度学习
机器学习入门——实战篇之监督学习
机器学习入门——基础
莫愁前路无知己，天下谁人不识君（缅怀雷霄骅）
技巧 | Pandas 数据填充
深度学习基础教程
机器学习学习

本文人工翻自Kaggle

任何机器学习项目的第一步都是熟悉数据。为此会使用 Pandas 库。Pandas 是数据科学家用来探索和处理数据的主要工具。大多数人在代码中将 Pandas 简写为 pd。我们使用命令

import pandas as pd

Pandas 库中最重要的部分是 DataFrame。DataFrame 保存的数据类型可以理解为表格。这类似于 Excel 中的工作表或 SQL 数据库中的表格。

Pandas 拥有功能强大的方法，可用于处理这类数据。

例如，我们将查看澳大利亚墨尔本的房价数据。在上机练习中，您将把相同的过程应用到一个新的数据集上，该数据集包含爱荷华州的房价。

示例（墨尔本）数据的文件路径为 ./input/melbourne-housing-snapshot/melb_data.csv。

我们使用以下命令加载并查看数据：

# 将文件路径保存为变量，以便于访问

melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'。

# 读取数据并将数据存储在名为 melbourne_data 的数据帧中

melbourne_data = pd.read_csv(melbourne_file_path)

# 打印墨尔本数据中的数据摘要

melbourne_data.describe()

结果显示了原始数据集中每列的 8 个数字。第一个数字，即计数，显示有多少行不存在缺失值。

出现缺失值的原因有很多。例如，在调查一间卧室的房子时，就不会收集第二间卧室的大小。我们将回到缺失数据的话题。

第二个值是平均值，也就是平均数。其下的 std 是标准偏差，用来衡量数值的分散程度。

要解释最小值、25% 值、50% 值、75% 值和最大值，想象一下将每列从最小值到最大值排序。第一个（最小）值是最小值。如果你在列表中走过四分之一的路程，你会发现一个数字大于 25% 的值，小于 75% 的值。这就是 25% 值（读作 "第 25 百分位数"）。第 50 个百分位数和第 75 个百分位数的定义类似，最大值是最大的数字。

网友评论

本文标题：机器学习入门-基础数据处理

本文链接：https://www.haomeiwen.com/subject/wlhkvdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

机器学习入门-基础数据处理

相关文章

机器学习—路线图

机器学习入门——实战篇之强化学习

机器学习入门——实战篇之非监督学习

机器学习入门——实战篇之深度学习

机器学习入门——实战篇之监督学习