美文网首页数据蛙数据分析每周作业
python数据分析之pandas库入门

python数据分析之pandas库入门

作者: 木子兜兜 | 来源:发表于2019-01-13 10:36 被阅读2次

    Pandas是Python的第三方库,提供高性能易用的数据类型和分析工具。它是基于Numpy实现,常与Numpy和Matplotlib一同使用。
    Pandas有两种数据类型:Series和DataFrame。
    Series=索引+一维数据
    DataFrame=行列索引+二维数据

    一.Series类型
    Series类型由一组数据和与之相关的数据索引组成,如果没有自定义索引的话会自动索引。

    e.g. image.png
    索引作为第二个参数,“index=”是可以省略的
    e.g. image.png

    自动索引和自定义索引并存,但是不能混用。

    e.g. image.png
    Series类型由如下几种创建方式:
    1.Python列表,index与列表元素个数一致,例如上述的例子
    2.标量值,index表达Series类型的尺寸,所以index是不能省略的
    e.g. image.png
    3.Python字典,键值对中的“键”是索引,index从字典中进行操作
    4.ndarray,索引和数据都可以通过ndarray类型创建

    5.其他函数,range()函数等

    Series类型的操作与ndarray类型类似:
    1.索引方法相同,采用[]
    2.Numpy中运算和操作都可用于Series类型
    3.可以通过自定义索引的列表进行切片
    4.可以通过自动索引进行切片,如果存在自定义索引,则一同被切片
    Series类型在运算中会自动对齐不同索引的数据,补齐后运算,补齐时缺项填充NaN(空值)

    e.g. image.png
    Series对象可以随时修改并且即刻生效。

    二.DataFrame类型
    DataFrame类型由共有相同索引的一组列组成,是一个表格型的数据类型,既有行索引,也有列索引,常用于表达二位数据,但也可以表达多维数据。
    DataFrame类型可以由如下类型创建:
    1.二维ndarray对象

    e.g. image.png

    2.由一维ndarray,列表,字典,元组或Series构成的字典

    e.g. image.png

    3.Series类型
    4.其他的DataFrame类型

    DataFrame基本操作类似Series,依据行列索引
    .reindex()能够改变或重排Series和DataFrame索引
    .drop()能够删除Series和DataFrame指定行或列索引
    算数运算依据行列索引,补齐后运算,运算默认产生浮点数,补齐时缺项填充NaN(空值),采用+-*/符号进行的二元运算产生新的对象
    比较运算只能比较相同索引的元素,不进行补齐,采用>,<,>=,<=,==,!=等符号进行的二元运算产生布尔对象

    相关文章

      网友评论

        本文标题:python数据分析之pandas库入门

        本文链接:https://www.haomeiwen.com/subject/yarkdqtx.html