Pandas（数据规整：聚合、合并和重塑）

Pandas（数据规整：聚合、合并和重塑）

作者: GHope | 来源:发表于2018-11-14 16:58 被阅读32次

Pandas（数据规整：聚合、合并和重塑）
利用Python进行数据分析第二版复现（七）
第08章数据规整：聚合、合并和重塑
第08章数据规整：聚合、合并和重塑
《利用python进行数据分析》第七章
day81-数据规整:聚合、合并和重塑及数据结构
数据规整化：清理、转化、合并、重塑
Pandas-高级操作知识点总结
pandas数据规整化
2018-04-07 PANDAS 数据合并与重塑（join/m

在许多应用中，数据可能分散在许多文件或数据库中，存储的形式也不利于分析，应采用聚合、合并、重塑数据的方法进行处理。

层次化索引

层次化索引（hierarchical indexing）是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级别。

层次化索引

根据索引取内容

“内层”中进行选取

内层选取

unstack的逆运算是stack

stack

对于一个DataFrame，每条轴都可以有分层索引

DataFrame各轴的分层索引

有了部分列索引，因此可以轻松选取列分组

选取分组

重排与分级排序

调整某条轴上各级别的顺序

交换

而sort_index则根据单个级别中的值对数据进行排序。交换级别时，常常也会用到 sort_index，这样最终结果就是按照指定顺序进行字母排序了。

排序

根据级别汇总统计

对DataFrame和Series的描述和汇总统计都有一个level选项，它用于指定在某条轴上求和的级别。

指定求和级别

使用DataFrame的列进行索引

将DataFrame的一个或多个列当做行索引来用，或者可能希望将行索引变成DataFrame的列

将行索引变为列

默认情况下，那些列会从DataFrame中移除，但也可以将其保留下来（drop=False）

阻止默认删除行为

reset_index的功能跟set_index刚好相反，层次化索引的级别会被转移到列里面

逆层次化索引

合并数据集

pandas对象中的数据可以通过一些方式进行合并
pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。SQL或其他关系型数据库的用户对此应该会比较熟悉，因为它实现的就是数据库的join操作。
pandas.concat可以沿着一条轴将多个对象堆叠到一起。
实例方法combine_first可以将重复数据拼接在一起，用一个对象中的值填充另一个对象中的缺失值。

数据库风格的DataFrame合并

数据集的合并（merge）或连接（join）运算是通过一个或多个键将行连接起来的。

数据准备

这是一种多对一的合并

多对一合并

没有指明要用哪个列进行连接。如果没有指定，merge就会将重叠列的列名当做键。最好明确指定一下。

明确连接键

如果两个对象的列名不同，也可以分别进行指定。

列名不同分别指定

结果里面c和d以及与之相关的数据消失了。默认情况下，merge做的是“内连接”；结果中的键是交集。其他方式还有”left”、”right”以及”outer”。外连接求取的是键的并集，组合了左连接和右连接的效果。连接方式

外连接

多表连接选项及说明

选项	说明
inner	使用两个表中共同拥有的键
left	使用左表中所有的键
right	使用右表中所有的键
outer	使用两个表中所有的键

多对多的合并

左连接的合并方式

多对多连接，由于左边的DataFrame有3个”b”行，右边的有2个，所以最终结果中就有6 个”b”。

内连接

根据多个键进行合并

多键全连接

重复列名的处理

处理重复列名

索引上的合并

连接键位于其索引中。在这种情况下，你可以传入left_index=True或right_index=True（或两个都传）以说明索引应该被用作连接键。

索引做连接键

层次化索引的数据, 索引的合并默认是多键合并

数据准备

必须以列表的形式指明用作合并键的多个列（注意用how=‘outer’对重复索引值的处理）

全连接处理重复索引

同时使用合并双方的索引

使用双方索引

join实例方法，能实现按索引合并

索引合并

向join传入一组DataFrame

传入DataFrame

轴向连接

数据合并运算也被称作连接（concatenation）、绑定（binding）或堆叠（stacking）

连接实例

pandas的concat函数合并操作

数据准备

调用concat可以将值和索引粘合在一起

索引粘合

传入axis=1，则结果就会变成一个DataFrame（axis=1是列）

传参粘合

指定连接后显示的内容

参与连接的片段在结果中区分不开。假设你想要在连接轴上创建一个层次化索引。使用keys参数即可达到这个目的。

创建层次化索引

如果沿着axis=1对Series进行合并，则keys就会成为DataFrame的列头。

keys的应用

多层应用

用names参数命名创建的轴级别

命名轴级别

DataFrame的行索引不包含任何相关数据, 传入ignore_index=True

合并之后自动生成索引

合并重叠数据

索引全部或部分重叠的两个数据集

索引数据集

此语句实现一样的功能

另一种实现方法

对于DataFrame，combine_first自然也会在列上做同样的事情，因此你可以将其看做：用传递对象中的数据为调用对象的缺失数据“打补丁”。

为缺失数据打补丁

重塑和轴向旋转

用于重新排列表格型数据的基础运算。这些函数也称作重塑（reshape）或轴向旋转（pivot）运算。

重塑层次化索引
stack：将数据的列“旋转”为行u
nstack：将数据的行“旋转”为列

数据准备

对该数据使用stack方法即可将列转换为行，得到一个Series。

列化为索引

对于一个层次化索引的Series，你可以用unstack将其重排为一个DataFrame：

索引还原为列

默认情况下，unstack操作的是最内层（stack也是如此）。传入分层级别的编号或名称即可对其它级别进行unstack操作。

指定转换级别

将“长格式”旋转为“宽格式”

多个时间序列数据通常是以所谓的“长格式”（long）或“堆叠格式”（stacked）存储在数据库和CSV中的。我们先加载一些示例数据，做一些时间序列规整和数据清洗。

加载示例数据

不同的item值分别形成一列，date列中的时间戳则用作索引

指定索引

查看当前格式

如果忽略最后一个参数，得到的DataFrame就会带有层次化的列

完成转换

将“宽格式”旋转为“长格式”

数据准备

当使用pandas.melt，我们必须指明哪些列是分组指标。下面使用key作为唯一的分组指标。

宽转长

使用pivot，可以重塑回原来的样子

塑原

因为pivot的结果从列创建了一个索引，用作行标签，我们可以使用reset_index将数据移回列

将索引填回列

指定列的子集，作为值的列

使指定列的子集作为值的列

pandas.melt也可以不用分组指标

缺省分组指标

相关文章

Pandas（数据规整：聚合、合并和重塑）
在许多应用中，数据可能分散在许多文件或数据库中，存储的形式也不利于分析，应采用聚合、合并、重塑数据的方法进行处理。...
利用Python进行数据分析第二版复现（七）
第08章数据规整：聚合、合并和重塑 8.1 层次化索引重排与分级根据级别汇总统计对DataFrame和Se...
第08章数据规整：聚合、合并和重塑
资料来源：https://github.com/BrambleXu/pydata-notebook 在许多应用中，...
第08章数据规整：聚合、合并和重塑
ps:在pandas中，对索引的操作默认都为行索引层次化索引层次化索引在数据重塑和基于分组的操作（如透视表生成...
《利用python进行数据分析》第七章
第七章数据规整化：清理、转换、合并、重塑合并数据集 pandas.merge：根据键将不同DataFrame中...
day81-数据规整:聚合、合并和重塑及数据结构
1层次化索引在许多应用中，数据可能分散在许多文件或数据库中，存储的形式也不利于分析，应采用聚合、合并、重塑数据的...
数据规整化：清理、转化、合并、重塑
数据规整化：清理、转化、合并、重塑合并数据集 pandas.merge 可根据一个或多个键将不同 DataFra...
Pandas-高级操作知识点总结
本文的Pandas知识点包括：1、合并数据集2、重塑和轴向旋转3、数据转换4、数据聚合 1、合并数据集 Panda...
pandas数据规整化
1.合并数据集 ①索引上的合并merge()函数的参数另外df对象还有join()方法，可以更方便地按索引合并。...
2018-04-07 PANDAS 数据合并与重塑（join/m
PANDAS 数据合并与重塑（join/merge篇）

网友评论

web服务器

本文标题：Pandas（数据规整：聚合、合并和重塑）

本文链接：https://www.haomeiwen.com/subject/ytymxqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

web服务器

关于我们|服务条款|联系我们|Pandas（数据规整：聚合、合并和重塑）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！