一、Pandas概述
Pandas 是基于 NumPy 的一个开源 Python 库,它被广泛用于快速分析数据,以及数据清洗和准备等工作;主要有两个主要数据结构Series
(1维)和DataFrame
(2维)处理金融,统计,社会科学和许多工程领域中的绝大多数典型用例,在Anaconda安装conda install pandas
, 或者用自带的包管理工具 pip 来安装pip install pandas
。
二、Pandas数据结构(series和DataFrame)
- 数据结构的创建
Series
首先导入两个包:
import numpy as np
import pandas as pd
实例:
data = [1,2,3,4,5]
index = [1,2,3,4,5]
my_series = pd.Series(data)#不设置index
my_series1 = pd.Series(data, index)#设置index
print(my_series, 1)
print(my_series1, 2)
结果:
总结:
上面的
data
参数可以是任意数据对象,比如字典、列表甚至是 NumPy 数组,而index 参数则是对 data 的索引值,类似字典的 key; index
参数是可省略的,你可以选择不输入这个参数。如果不带 index 参数,Pandas 会自动用默认 index 进行索引,类似数组,索引值是 [0, ..., len(data) - 1]
-
用Numpy数组对象和Python字典创建Series
实例:
my_data = [11,12,13,14,15]
my_dict = {'a':11, 'b':12, 'c':13, 'd':14, 'e':15}
np_arry = np.array(my_data)
print(my_data,'numpy的数组')
my_series = pd.Series(my_data)#用numpy数组创建Series
my_series1 = pd.Series(my_dict)#用字典创建Series
my_series2 = pd.Series(np.arange(5))
print(my_series, 1)
print(my_series1, 2)
print(my_series2,3)
结果:
运行结果总结
如果你从一个 Python 字典对象创建 Series,Pandas 会自动把字典的键值设置成 Series 的 index
,并将对应的 values
放在和索引对应的 data 里。和 NumPy 数组不同,Pandas 的 Series 能存放各种不同类型的对象。
- Series 里获取数据 访问 Series 里的数据的方式,和
Python 字典
基本一样:
实例:
my_series1 = pd.Series([1,2,3,4,5],index=['a', 'b', 'c', 'd', 'e'])
print(my_series1)
my_series1['b']
结果:
-
Series的一些方法和函数:
my_series.values
,my_series.index
,isnull()
实例:
my_series1 = pd.Series([1,2,3,4,5],index=['a', 'b', 'c', 'd', 'e'])
print(my_series1.values,1)
print(my_series1.index,2)
print(my_series1.to_dict,3)
结果:
-
对 Series 进行算术运算操作
对 Series 的算术运算都是基于 index 进行的。我们可以用加减乘除(+ - * /)这样的运算符对两个 Series 进行运算,Pandas 将会根据索引 index,对响应的数据进行计算,结果将会以浮点数的形式存储,以避免丢失精度。
实例:
data = [1,2,3,4,5]
data2 =[7,8,9,10,12]
index = [1,2,3,4,5]
my_series = pd.Series(data)
my_series1 = pd.Series(data2, index)
print(my_series, 1)
print(my_series1, 2)
my_series1 - my_series#两个做差
结果:
DataFrames
Pandas 的 DataFrame
(数据表)是一种 2 维数据结构,数据以表格的形式存储,分成若干行和列。通过 DataFrame
,你能很方便地处理数据。常见的操作比如选取、替换行或列的数据,还能重组数据表、修改索引、多重筛选等
构建一个 DataFrame 对象的基本语法如下:
-
Series 来构建一个DataFrame:
实例:
dct = {'Campus':pd.Series(['北京','深圳','上海','广州'], index=['a','b','c','d']),'Num':pd.Series([5000,4000,3000,2000],index=['a','b','c','d']),'Avg':pd.Series(['10K','9.8K','9K','8K'],index=['a','b','c','d'])}
df = pd.DataFrame(dct)
print(df)
#或者
df1 = pd.DataFrame(dct, columns=['Campus','Avg'])
print(df1)
结果:
- 用一个字典来创建 DataFrame:
dct = {'Campus':['北京','深圳','上海','广州'],'Num':[5000,4000,3000,2000],'Avg':['10K','9.8K','9K','8K']}
df = pd.DataFrame(dct)
print(df)
#或者
df1 = pd.DataFrame(dct, columns=['Campus','Avg'])
print(df1)
结果:
-
获取 DataFrame 中的列
实例:
df['Campus']#获取DataFrame中的一列
print(type(df['Campus']))#获取返回的类型
df[['Campus', 'Avg']]#获取DataFrame中的多列
print(type(df[['Campus', 'Avg']]))#获取返回的类型
结果:
总结
因为我们只获取一列,所以返回的就是一个
Series
。可以用 type() 函数确认返回值的类型,如果获取多个列,那返回的就是一个 DataFrame
类型。
- 三、DataFrame的IO操作
Pandas 常用的IO操作列表:
IO操作表
- 复制表格中的数据到剪切板和把数据放入到粘粘板中,数据可以直接粘粘到excel文件中
df1 = pd.read_clipboard()
和df1.to_clipboard()
- 写入和读写csv文件,可以取消index
df1.to_csv('df1.csv')
、df1.to_csv('df1.csv', index = False)
和df2 = pd.read_csv('df1.csv')
- 转化为json格式和读取json
df1.to_json()
和pd.read_json(df1.to_json())
- 转换为excel格式和读取
df1.to_excel('df1.xlsx')
和df1.read_excel('df1.xlsx')
-
df1.head()
和df1.tail()
默认返回前后5行
四、Series和DataFramede Reindexing
首先导入from pandas import Series, DaraFrame
实例:
#添加index
s1 = Series(['A', 'B', 'C'], index=[1,5,10])
print(s1)
dct = {'Campus':['北京','深圳','上海','广州'],'Num':[5000,4000,3000,2000],'Avg':['10K','9.8K','9K','8K']}
df = pd.DataFrame(dct,index=['A','B','C','D'])
print(df)
结果:
- reindex填充值
实例:
print(s1.reindex(index=[1,5,10,15,20]))#在reindex的时候添加的新的index对应的值并未指定,默认就是NaN
print(df.reindex(index=['A','B','C','D','E'],columns=['Campus','Num','Avg','Year']))
print(s1.reindex(index=[1,5,10,15,20], fill_value=10 ))#为新的index指定固定值10
print(df.reindex(index=['A','B','C','D','E'],columns=['Campus','Num','Avg','Year'],fill_value=10))
#其他填充值的方法:
print(s1.reindex(index=range(15),method='ffill'))
结果:
- 切割和删除(drop)
当reindex时指定的index少于原有的index的情况:这是一个类似于切割的操作
实例:
#这是一个类似于切割的操作
print(s1.reindex(index=[1,5]))
print(df.reindex(index=['A','B',],columns=['Num','Avg']))
print('drop删除')
print(s1.drop(5))
print(df.drop('B'))
print(df.drop('Num',axis=1))
结果:
总结:
drop()函数的参数axis默认等于0,删除行,当axis=1,删除列,当然还有其他的参数例如how
指定删除的模式,thresh
多余大于就会被删除
五、Mapping与Replace
-
map
实例:
df1 = DataFrame({"城市":["北京","上海","广州"], "人口":[1000,2000,1500]},index = ['A','B','C'])
print(df1,'$$$$$$$$$$')
df1['GDP'] = Series([900,1600,3000])# 用Series添加一列
print(df1,'**************')
gdp_map = {"北京":900,"上海":1600,"广州":3000}#使用map添加一列
df1['GDP'] = df1['城市'].map(gdp_map)
print(df1,'&&&&&&&&&&&&&&&&')
结果:
map的优势在与不需要关心index的顺序
replace
实例:
s1 = Series(np.arange(5))
print(s1)
print(s1.replace(1,np.nan))#将一个值替换成NaN
print(s1.replace([2,3,4],[20,30,40]))#替换多个值
结果:
repalce的优势在于不管替换一个值还是多个值都很方便
网友评论