Pandas(数据准备)

作者: GHope | 来源:发表于2018-11-13 10:57 被阅读13次

    轴索引的重命名

    重命名轴索引

    如果想要创建数据集的转换版(而不是修改原始数据)

    创建转换版

    rename可以结合字典型对象实现对部分轴标签的更新

    rename实现部分轴更新

    就地修改某个数据集,传入inplace=True即可

    rename传参就地修改

    离散化(面元划分 )

    为了便于分析,连续数据常常被离散化或拆分为“面元”(bin)。假设有一组人员数据,而你希望将它们划分为不同的年龄组

    数据准备

    将这些数据划分为“18到25”、“26到35”、“35到60”以及“60以上”几个面元

    划分面元

    pandas返回的是一个特殊的Categorical(分类)对象。结果展示了pandas.cut划分的面元。你可以将其看做一组表示面元名称的字符串。

    编码对象计数

    跟“区间”的数学符号一样,圆括号表示开端,而方括号则表示闭端(包括)。哪边是闭端可以通过right=False进行修改。

    区间开闭设置

    通过传递一个列表或数组到labels,设置面元名称。

    设置面元名称

    向cut传入的是面元的数量而不是确切的面元边界,则它会根据数据的小值和大值计算等长面元。下面这个例子中,我们将一些均匀分布的数据分成四组,选项precision=2,限定小数只有两位。

    均匀划分面元

    qcut是一个非常类似于cut的函数,它可以根据样本分个数对数据进行面元划分。

    根据样本个数进行面元划分

    检测和过滤异常值

    describe返回常用函数的结果

    数据准备

    某列中绝对值大小超过3的值

    2中绝对值大于3的数

    选出全部含有“超过3或-3的值”的行

    含有绝对值大于3 的行

    np.sign(data)可以生成1和-1

    得到正负

    排列和随机采样

    利用numpy.random.permutation函数可以轻松实现对Series或DataFrame的列的排列工作 (permuting,随机重排序)

    随机重排

    要通过替换的方式产生样本(允许重复选择),可以传递replace=True到sample

    随机替换

    计算指标/哑变量

    将分类变量(categorical variable)转换为“哑变量”或“指标矩阵”

    表示字母出现的下标 拼接

    读取指定文件
    (需要指定的参数:读取路径、分割标签、是否从头部读、列表头名称、解析引擎)


    读取文件内容

    获取影片的所有类型

    获取类型

    构建指标DataFrame的方法之一是从一个全零DataFrame开始

    构建指标

    pandas的矢量化字符串函数

    矢量化

    通过data.map,所有字符串和正则表达式方法都能被应用于(传入lambda表达式或其他函数)各个值,但是如果存在NA(null)就会报错。为了解决这个问题,Series有一些能够跳过 NA值的面向数组方法,进行字符串操作。通过Series的str属性即可访问这些方法。例如,我们可以通过str.contains检查各个电子邮件地址是否含有"gmail":

    检查是否包含

    也可以使用正则表达式,还可以加上任意re选项(如IGNORECASE)

    正则匹配

    字符串进行截取

    字符串截取

    相关文章

      网友评论

        本文标题:Pandas(数据准备)

        本文链接:https://www.haomeiwen.com/subject/drvixqtx.html