Pandas（数据准备）

Pandas（数据准备）

作者: GHope | 来源:发表于2018-11-13 10:57 被阅读13次

轴索引的重命名

重命名轴索引

如果想要创建数据集的转换版（而不是修改原始数据）

创建转换版

rename可以结合字典型对象实现对部分轴标签的更新

rename实现部分轴更新

就地修改某个数据集，传入inplace=True即可

rename传参就地修改

离散化（面元划分）

为了便于分析，连续数据常常被离散化或拆分为“面元”（bin）。假设有一组人员数据，而你希望将它们划分为不同的年龄组

数据准备

将这些数据划分为“18到25”、“26到35”、“35到60”以及“60以上”几个面元

划分面元

pandas返回的是一个特殊的Categorical（分类）对象。结果展示了pandas.cut划分的面元。你可以将其看做一组表示面元名称的字符串。

编码对象计数

跟“区间”的数学符号一样，圆括号表示开端，而方括号则表示闭端（包括）。哪边是闭端可以通过right=False进行修改。

区间开闭设置

通过传递一个列表或数组到labels，设置面元名称。

设置面元名称

向cut传入的是面元的数量而不是确切的面元边界，则它会根据数据的小值和大值计算等长面元。下面这个例子中，我们将一些均匀分布的数据分成四组，选项precision=2，限定小数只有两位。

均匀划分面元

qcut是一个非常类似于cut的函数，它可以根据样本分个数对数据进行面元划分。

根据样本个数进行面元划分

检测和过滤异常值

describe返回常用函数的结果

数据准备

某列中绝对值大小超过3的值

2中绝对值大于3的数

选出全部含有“超过3或－3的值”的行

含有绝对值大于3 的行

np.sign(data)可以生成1和-1

得到正负

排列和随机采样

利用numpy.random.permutation函数可以轻松实现对Series或DataFrame的列的排列工作（permuting，随机重排序）

随机重排

要通过替换的方式产生样本（允许重复选择），可以传递replace=True到sample

随机替换

计算指标/哑变量

将分类变量（categorical variable）转换为“哑变量”或“指标矩阵”

表示字母出现的下标

拼接

读取指定文件
（需要指定的参数：读取路径、分割标签、是否从头部读、列表头名称、解析引擎）

读取文件内容

获取影片的所有类型

获取类型

构建指标DataFrame的方法之一是从一个全零DataFrame开始

构建指标

pandas的矢量化字符串函数

矢量化

通过data.map，所有字符串和正则表达式方法都能被应用于（传入lambda表达式或其他函数）各个值，但是如果存在NA（null）就会报错。为了解决这个问题，Series有一些能够跳过 NA值的面向数组方法，进行字符串操作。通过Series的str属性即可访问这些方法。例如，我们可以通过str.contains检查各个电子邮件地址是否含有"gmail"：

检查是否包含

也可以使用正则表达式，还可以加上任意re选项（如IGNORECASE）

正则匹配

字符串进行截取

字符串截取

相关文章

网友评论

本文标题：Pandas（数据准备）

本文链接：https://www.haomeiwen.com/subject/drvixqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

web服务器

Python学习

关于我们|服务条款|联系我们|Pandas（数据准备）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！