Pandas库的介绍

Pandas库的介绍

作者: 不做大哥好多年 | 来源:发表于2017-06-07 13:15 被阅读1423次

(八)Pandas库的学习|python数据分析与展示(学习笔记
利用Python进行数据分析随笔记一介绍&安装
Pandas库的介绍
1.基本介绍和文件读写
Python学习：如何使用pandas分析excel数据(续)
Pandas学习
Python——Pandas数据结构介绍
pandas学习笔记
Pandas
《利用Python进行数据分析》 13.1pandas与建模代码

Pandas库的引用

Pandas是python第三方库，提供高性能易用数据类型和分析工具

import pandas as pd

Pandas基于Numpy实现，常与Numpy和Matplotlib一同使用

Pandas库的理解

两个数据类型：Series，DataFrame

基于上述数据类型的各类操作(基本操作、运算操作、特征类操作、关联类操作)

Pandas库的Series类型

Series类型可以由如下类型创建：

1.python列表,index与列表元素个数一致

2.标量值，index表达Series类型的尺寸

3.python字典，键值对中的‘键’是索引，index从字典中进行选择操作

4.ndarray，索引和数据都可以通过ndarray类型创建

5.其他函数，range()函数等

Series类型的基本操作

Series类型包括index和value两部分

Series类型的操作类似ndarray类型

Series类型的操作类似python字典类型

Series类型的操作类似ndarray类型：

1.索引方法相同，采用[]

2.numpy中运算和操作可用于series类型

3.可以通过自定义索引的列表进行切片

4.可以通过自动索引进行切片，如果存在自定义索引，则一同被切片

Series类型的操作类似python字典类型：

1.通过自定义索引访问

2.保留字in操作

3.使用.get()方法

Series是一维带‘标签’数组

index_0 --->data_a

Series基本操作类似ndarray和字典，根据索引对齐

DataFrame类型可以由如下类型创建：

1.二维ndarray对象

2.由一维ndarray、列表、字典、元组或Series构成的字典

3.Series类型

4.其他的DataFrame类型

Pandas库的数据类型操作

重新索引

.reindex(index=None,columns=None,...)的参数

index,columns 新的行列自定义索引

fill_value 重新索引中，用于填充缺失位置的值

method 填充方法，ffill当前值向前填充，bfill向后填充

limit 最大填充量

copy 默认true，生成新的对象，false时，新旧相等不复制

索引类型的常用方法

.append(idx) 链接另一个index对象，产生新的index对象

.diff(idx) 计算差集，产生新的index对象

.intersection(idx) 计算交集

.union(idx) 计算并集

.delete(loc) 删除loc位置处的元素

.insert(loc,e) 在loc位置增加一个元素e

Pandas库的数据类型运算

算术运算法则

算术运算根据行列索引，补齐后运算，运算默认产生浮点数

补齐时缺项填充NaN(空值)

二维和一维、一维和零维间为广播运算

采用+ - * ／符号进行的二元运算产生新的对象

方法形式运算

.add(d,**argws) 类型间加法运算，可选参数

.sub(d,**argws) 类型间减法运算，可选参数

.mul(d,**argws) 类型间乘法运算，可选参数

.div(d,**argws) 类型间除法运算，可选参数

比较运算法则

比较运算只能比较相同索引的元素，不进行补齐

二维和一维、一维和零维间为广播运算

采用> < >= <= == !=等符号进行的二元运算产生布尔对象

Pandas的数据特征分析

.sort_values()方法在指定轴上根据数值进行排序，默认升序

Series.sort_values(axis=0,ascending=True)

DataFrame.sort_values(by,axis=0,ascending=True)

by:axis轴上的某个索引或索引列表

基本统计分析函数

适用于Series和DataFrame类型

.sum() 计算数据的总和，按0轴计算，下同

.count() 非NaN值的数量

.mean() .median() 计算数据的算术平均值，算术中位数

.var() .std() 计算数据的方差、标准差

.min() .max() 计算数据的最小值、最大值

.describe() 针对0轴（各列）的统计汇总

适用于Series

.argmin() .argmax() 计算数据最大值、最小值所在位置的索引位置（自动索引）

.idxmin() .idxmax() 计算数据最大值、最小值所在位置的索引（自定义索引）

累计统计分析函数

适用于Series和DataFrame类型，累计计算

.cumsun() 依次给出前1、2、...、n个数的和

.cumprod() 依次给出前1、2、...、n个数的积

.cummax() 依次给出前1、2、...、n个数的最大值

.cummin() 依次给出前1、2、....、n个数的最小值

适用于Series和DataFrame类型，滚动计算(窗口计算)

.rolling(w).sum() 依次计算相邻w个元素的和

.rolling(w).mean() 依次计算相邻w个元素的算术平均值

.rolling(w).var() 依次计算相邻w个元素的方差

.rolling(w).std() 依次计算相邻w个元素的标准差

.rolling(w).min() .max() 依次计算相邻w个元素的最小值和最大值

数据的相关分析

两个事物，表示为x和y，如何判断它们之间的存在相关性？

相关性

1.x增大，y增大，两个变量正相关

2.x增大，y减小，两个变量负相关

3.x增大，y无视，两个变量不相关

相关分析函数

适用于Series和DataFrame类型

.cov() 计算协方差矩阵

.corr() 计算相关系数矩阵，Pearson、Spearman、Kendall等系数

相关文章

(八)Pandas库的学习|python数据分析与展示(学习笔记
1.本课程导学2.pandas库的介绍3.pandas库的Serious类型4.pandas库的DataFrame...
利用Python进行数据分析随笔记一介绍&安装
--- tags: - python、Pandas、NumPy --- #### 介绍重要的Python库 *...
Pandas库的介绍
Pandas库的引用 Pandas是python第三方库，提供高性能易用数据类型和分析工具 import pand...
1.基本介绍和文件读写
Pandas介绍 Pandas是基于Numpy的专门用于数据分析的开源Python库。 Pandas没有使用Pyt...
Python学习：如何使用pandas分析excel数据(续)
1.问题上篇，简单介绍了pandas库的使用，列出了常见操作的方法。本篇并不是继续讲述pandas库的使用，而是...
Pandas学习
Pandas介绍 Pandas基于Numpy的一个第三方的工具库，Pandas主要是，用于做数据清洗方面的工作，如...
Python——Pandas数据结构介绍
1.Pandas库介绍： Pandas是Python第三方库，提供高性能易用数据类型和分析工具,其所包含的数据结...
pandas学习笔记
Pandas库的介绍 Pandas是一个开放源码的Python库，它使用强大的数据结构提供高性能的数据操作和分析工...
Pandas
1.pandas简介首先引用官方介绍：“pandas是一个采用BSD协议的开源库，为Python编程语言...
《利用Python进行数据分析》 13.1pandas与建模代码
第十三章 Python建模库介绍 13.1 pandas与建模代码的结合使用pandas用于数据载入和数据清洗...

网友评论

我爱编程

本文标题：Pandas库的介绍

本文链接：https://www.haomeiwen.com/subject/obsofxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

我爱编程

关于我们|服务条款|联系我们|Pandas库的介绍|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！