Pandas

作者: 阿凡提说AI | 来源:发表于2024-09-13 00:06 被阅读0次

科学计算库pandas执行示例
pandas常用操作
pandas
Python数据分析与机器学习3-Pandas
《莫烦Python》笔记 -- pandas部分
API - 机器学习 - 速查
Pandas学习资料
Python-pandas库 -下篇
清洗数据
pandas

Pandas 是一个强大的 Python 数据分析库，用于数据操作和分析，特别是在处理时间序列和表格数据方面。它提供了灵活的数据结构，比如 DataFrame 和 Series，使得数据处理和分析变得更加简单和高效。以下是有关 Pandas 的详细介绍。

1. 安装 Pandas

你可以通过以下命令使用 pip 安装 Pandas：

pip install pandas

2. 基本数据结构

2.1 Series

Series 是一维的数据结构，可以存储任意数据类型的数组。它由标签（索引）和数据组成。

import pandas as pd

# 创建一个 Series
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s)

输出：

a    1
b    2
c    3
d    4
dtype: int64

2.2 DataFrame

DataFrame 是一个二维表格数据结构，类似于电子表格或 SQL 表格。它由多列（每列为 Series）组成，每列可以存储不同的数据类型。

data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)
print(df)

输出：

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago

3. 数据操作

3.1 读取和写入数据

可以从多种格式（如 CSV、Excel、SQL 等）读取和写入数据。

读取 CSV 文件：

df = pd.read_csv('data.csv')

写入到 CSV 文件：

df.to_csv('data_out.csv', index=False)

3.2 数据选择和过滤

按列选择：

ages = df['Age']

按行选择：

first_row = df.iloc[0]

条件过滤：

adults = df[df['Age'] >= 30]

3.3 数据清洗

处理缺失值：

# 删除包含 NaN 的行
df.dropna(inplace=True)

# 填充缺失值
df.fillna(0, inplace=True)

当你将 inplace=True 传递给方法时，该方法将直接对原始 DataFrame 进行修改，而不是返回一个新的 DataFrame。这意味着所有的操作都会在原始对象上执行，数据将在原地被改变。

重命名列：

df.rename(columns={'Name': 'First Name'}, inplace=True)

4. 数据分析

4.1 描述性统计

Pandas 提供了一些简单的统计方法，如 mean、sum、count、describe 等。

mean_age = df['Age'].mean()
summary = df.describe()

4.2 分组和聚合

使用 groupby 可以对数据进行分组并进行聚合操作。

grouped = df.groupby('City')['Age'].mean()

这段代码的目的是计算每个城市 (City) 中的平均年龄 (Age)。下面是对代码的逐步解析：

df.groupby('City'):
- df 是一个 Pandas DataFrame。
- groupby('City')：这个方法对 DataFrame 进行分组，按照 City 列的值进行分组。即，它会在 DataFrame 中找到所有不同的城市，然后按城市将数据行分开。
['Age']:
- 这部分是对每个组的选择，它表示在每个分组之后，只关注 Age 列的数据。
- 这样，我们就得到了一个分组后的 Age 数据。
.mean():
- 这是一个聚合函数，它计算每个城市的平均年龄。
- 对于每个分组（每个城市），mean() 方法会返回该组 Age 列的所有值的平均值。

5. 数据可视化

Pandas 与 Matplotlib 集成良好，可以直接从 DataFrame 生成图形。

import matplotlib.pyplot as plt

df['Age'].hist()
plt.show()

这段代码的目的是使用 Matplotlib 库来绘制一个直方图，以可视化 Pandas DataFrame df 中 Age 列的数据分布。下面是对每行代码的详细解释：

代码解析

import matplotlib.pyplot as plt

导入 Matplotlib：引入 Matplotlib 的 pyplot 模块并将其命名为 plt，这样我们可以使用 plt 前缀来调用 Matplotlib 的绘图函数。

df['Age'].hist()

绘制直方图：
- df['Age']：从 Pandas DataFrame df 中选择 Age 列，这个列的数据将用于绘制直方图。
- .hist()：调用 hist() 方法，这个方法会根据 Age 数值的分布绘制直方图。直方图会将 Age 的值分成若干个“箱子”（bins），然后计算每个箱子中的数据点数量。

plt.show()

显示绘图：调用 plt.show() 来展示绘制的直方图。如果没有这行代码，图形可能不会显示出来，尤其是在一些开发环境中。

6. 时间序列处理

Pandas 也提供了强大的时间序列处理功能，可以方便地进行日期和时间的数据操作。

# 创建日期范围
date_range = pd.date_range(start='2023-01-01', end='2023-01-10')
print(date_range)

# 将日期设为索引
df['Date'] = date_range
df.set_index('Date', inplace=True)

7. 结论

Pandas 是一个功能强大且灵活的数据分析工具，可以帮助你轻松处理和分析数据。无论是简单的数据清洗、复杂的数据分析，还是时间序列处理，Pandas 都能提供丰富的功能和工具。

网友评论

本文标题：Pandas

本文链接：https://www.haomeiwen.com/subject/lvmpljtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Pandas

1. 安装 Pandas

2. 基本数据结构

2.1 Series

2.2 DataFrame

3. 数据操作

3.1 读取和写入数据

3.2 数据选择和过滤

3.3 数据清洗

4. 数据分析

4.1 描述性统计

4.2 分组和聚合

5. 数据可视化

代码解析

6. 时间序列处理

7. 结论

相关文章

科学计算库pandas执行示例

pandas常用操作

pandas

Python数据分析与机器学习3-Pandas

《莫烦Python》笔记 -- pandas部分

API - 机器学习 - 速查

Pandas学习资料

Python-pandas库 -下篇

清洗数据

pandas

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读