美文网首页读书简友广场想法
机器学习入门-基础数据处理

机器学习入门-基础数据处理

作者: 独人 | 来源:发表于2023-09-06 00:34 被阅读0次

本文人工翻自Kaggle

任何机器学习项目的第一步都是熟悉数据。为此会使用 Pandas 库。Pandas 是数据科学家用来探索和处理数据的主要工具。大多数人在代码中将 Pandas 简写为 pd。我们使用命令

import pandas as pd

Pandas 库中最重要的部分是 DataFrame。DataFrame 保存的数据类型可以理解为表格。这类似于 Excel 中的工作表或 SQL 数据库中的表格。

Pandas 拥有功能强大的方法,可用于处理这类数据。

例如,我们将查看澳大利亚墨尔本的房价数据。在上机练习中,您将把相同的过程应用到一个新的数据集上,该数据集包含爱荷华州的房价。

示例(墨尔本)数据的文件路径为 ./input/melbourne-housing-snapshot/melb_data.csv。

我们使用以下命令加载并查看数据:

# 将文件路径保存为变量,以便于访问

melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'。

# 读取数据并将数据存储在名为 melbourne_data 的数据帧中

melbourne_data = pd.read_csv(melbourne_file_path)

# 打印墨尔本数据中的数据摘要

melbourne_data.describe()

结果显示了原始数据集中每列的 8 个数字。第一个数字,即计数,显示有多少行不存在缺失值。

出现缺失值的原因有很多。例如,在调查一间卧室的房子时,就不会收集第二间卧室的大小。我们将回到缺失数据的话题。

第二个值是平均值,也就是平均数。其下的 std 是标准偏差,用来衡量数值的分散程度。

要解释最小值、25% 值、50% 值、75% 值和最大值,想象一下将每列从最小值到最大值排序。第一个(最小)值是最小值。如果你在列表中走过四分之一的路程,你会发现一个数字大于 25% 的值,小于 75% 的值。这就是 25% 值(读作 "第 25 百分位数")。第 50 个百分位数和第 75 个百分位数的定义类似,最大值是最大的数字。

相关文章

  • 机器学习—路线图

    机器学习数据处理步骤: 机器学习基础与实践(一)----数据清洗 机器学习基础与实践(二)----数据转换 机器学...

  • 机器学习入门——实战篇之强化学习

    这是本篇文章是《机器学习入门》系列文章的第五篇,该系列有如下文章:《机器学习入门——基础篇》《机器学习入门——实战...

  • 机器学习入门——实战篇之非监督学习

    这是本篇文章是《机器学习入门》系列文章的第三篇,该系列有如下文章:《机器学习入门——基础篇》《机器学习入门——实战...

  • 机器学习入门——实战篇之深度学习

    这是本篇文章是《机器学习入门》系列文章的第四篇,该系列有如下文章:《机器学习入门——基础篇》《机器学习入门——实战...

  • 机器学习入门——实战篇之监督学习

    这是本篇文章是《机器学习入门》系列文章的第二篇,该系列有如下文章:《机器学习入门——基础篇》《机器学习入门——实战...

  • 机器学习入门——基础

    这是本篇文章是《机器学习入门》系列文章的第一篇,该系列有如下文章:《机器学习入门——基础篇》《机器学习入门——实战...

  • 莫愁前路无知己,天下谁人不识君(缅怀雷霄骅)

    视音频数据处理入门系列文章(转载) 视音频编解码技术零基础学习方法 视音频数据处理入门:RGB、YUV像素数据处理...

  • 技巧 | Pandas 数据填充

    课程学习:Pandas 数据处理基础入门[https://www.lanqiao.cn/courses/906/l...

  • 深度学习基础教程

    深度学习基础教程 [tag]深度学习,机器学习,数据分析,挖掘,算法, [content]深度学习的入门基础。 [...

  • 机器学习学习

    学习的主线是《机器学习入门到实战MATLAB实践应用》 作者:冷雨泉、张会文、张伟等 1、机器学习基础 数据集、样...

网友评论

    本文标题:机器学习入门-基础数据处理

    本文链接:https://www.haomeiwen.com/subject/wlhkvdtx.html