数据分析（2）--Pandas入门

作者: 坚持后的收获 | 来源:发表于2019-04-09 00:21 被阅读140次

pandas入门
数据分析学习计划
Python（金融）数据分析（二）Pandas
利用Python进行数据分析（五）之pandas入门
第5章 Pandas入门(1)
数据分析（2）--Pandas入门
Python--pandas--基础概念学习
文科生学Python系列9: Pandas入门
文科生学Python系列10: Pandas鸢尾花案例
pandas快速入门

一、Pandas概述
Pandas 是基于 NumPy 的一个开源 Python 库，它被广泛用于快速分析数据，以及数据清洗和准备等工作；主要有两个主要数据结构Series（1维）和DataFrame（2维）处理金融，统计，社会科学和许多工程领域中的绝大多数典型用例，在Anaconda安装conda install pandas，或者用自带的包管理工具 pip 来安装pip install pandas。

二、Pandas数据结构（series和DataFrame）

数据结构的创建

Series

首先导入两个包：
import numpy as np
import pandas as pd
实例：

data = [1,2,3,4,5]
index = [1,2,3,4，5]
my_series = pd.Series(data)#不设置index
my_series1  = pd.Series(data, index)#设置index
print(my_series, 1)
print(my_series1, 2)

结果：

运行结果
总结：
上面的 data参数可以是任意数据对象，比如字典、列表甚至是 NumPy 数组，而index 参数则是对 data 的索引值，类似字典的 key； index 参数是可省略的，你可以选择不输入这个参数。如果不带 index 参数，Pandas 会自动用默认 index 进行索引，类似数组，索引值是 [0, ..., len(data) - 1]

用Numpy数组对象和Python字典创建Series
实例：

my_data = [11,12,13,14,15]
my_dict = {'a':11, 'b':12, 'c':13, 'd':14, 'e':15}
np_arry = np.array(my_data) 
print(my_data,'numpy的数组')

my_series = pd.Series(my_data)#用numpy数组创建Series
my_series1  = pd.Series(my_dict)#用字典创建Series
my_series2 = pd.Series(np.arange(5))
print(my_series, 1)
print(my_series1, 2)
print(my_series2,3)

结果：

运行结果

总结
如果你从一个 Python 字典对象创建 Series，Pandas 会自动把字典的键值设置成 Series 的 index，并将对应的 values 放在和索引对应的 data 里。和 NumPy 数组不同，Pandas 的 Series 能存放各种不同类型的对象。

Series 里获取数据访问 Series 里的数据的方式，和 Python 字典基本一样：
实例：

my_series1  = pd.Series([1,2,3,4,5],index=['a', 'b', 'c', 'd', 'e'])
print(my_series1)
my_series1['b']

结果：

运行结果

Series的一些方法和函数：
my_series.values, my_series.index, isnull()
实例：

my_series1  = pd.Series([1,2,3,4,5],index=['a', 'b', 'c', 'd', 'e'])

print(my_series1.values,1)
print(my_series1.index,2)
print(my_series1.to_dict,3)

结果：

运行结果

对 Series 进行算术运算操作
对 Series 的算术运算都是基于 index 进行的。我们可以用加减乘除（+ - * /）这样的运算符对两个 Series 进行运算，Pandas 将会根据索引 index，对响应的数据进行计算，结果将会以浮点数的形式存储，以避免丢失精度。

实例：

data = [1,2,3,4,5]
data2 =[7,8,9,10,12]
index = [1,2,3,4,5]
my_series = pd.Series(data)
my_series1  = pd.Series(data2, index)
print(my_series, 1)
print(my_series1, 2)
my_series1 - my_series#两个做差

结果：

运行结果

DataFrames

Pandas 的 DataFrame（数据表）是一种 2 维数据结构，数据以表格的形式存储，分成若干行和列。通过 DataFrame，你能很方便地处理数据。常见的操作比如选取、替换行或列的数据，还能重组数据表、修改索引、多重筛选等
构建一个 DataFrame 对象的基本语法如下：

Series 来构建一个DataFrame：
实例：

dct = {'Campus':pd.Series(['北京','深圳','上海','广州'], index=['a','b','c','d']),'Num':pd.Series([5000,4000,3000,2000],index=['a','b','c','d']),'Avg':pd.Series(['10K','9.8K','9K','8K'],index=['a','b','c','d'])}
df = pd.DataFrame(dct)
print(df)
#或者
df1 = pd.DataFrame(dct, columns=['Campus','Avg'])
print(df1)

结果：

运行结果

用一个字典来创建 DataFrame：

dct = {'Campus':['北京','深圳','上海','广州'],'Num':[5000,4000,3000,2000],'Avg':['10K','9.8K','9K','8K']}
df = pd.DataFrame(dct)
print(df)
#或者
df1 = pd.DataFrame(dct, columns=['Campus','Avg'])
print(df1)

结果：

image.png

获取 DataFrame 中的列
实例：

df['Campus']#获取DataFrame中的一列
print(type(df['Campus']))#获取返回的类型

df[['Campus', 'Avg']]#获取DataFrame中的多列
print(type(df[['Campus', 'Avg']]))#获取返回的类型

结果：

运行结果
总结
因为我们只获取一列，所以返回的就是一个 Series。可以用 type() 函数确认返回值的类型，如果获取多个列，那返回的就是一个 DataFrame 类型。

三、DataFrame的IO操作

Pandas 常用的IO操作列表：

IO操作表

复制表格中的数据到剪切板和把数据放入到粘粘板中，数据可以直接粘粘到excel文件中
df1 = pd.read_clipboard()和df1.to_clipboard()
写入和读写csv文件,可以取消index
df1.to_csv('df1.csv')、df1.to_csv('df1.csv', index = False)和df2 = pd.read_csv('df1.csv')
转化为json格式和读取json
df1.to_json()和pd.read_json(df1.to_json())
转换为excel格式和读取
df1.to_excel('df1.xlsx')和 df1.read_excel('df1.xlsx')
df1.head()和df1.tail()默认返回前后5行

四、Series和DataFramede Reindexing
首先导入from pandas import Series, DaraFrame
实例：

#添加index
s1 = Series(['A', 'B', 'C'], index=[1,5,10])
print(s1)
dct = {'Campus':['北京','深圳','上海','广州'],'Num':[5000,4000,3000,2000],'Avg':['10K','9.8K','9K','8K']}
df = pd.DataFrame(dct,index=['A','B','C','D'])
print(df)

结果：

运行结果

reindex填充值
实例：

print(s1.reindex(index=[1,5,10,15,20]))#在reindex的时候添加的新的index对应的值并未指定,默认就是NaN
print(df.reindex(index=['A','B','C','D','E'],columns=['Campus','Num','Avg','Year']))
print(s1.reindex(index=[1,5,10,15,20], fill_value=10 ))#为新的index指定固定值10
print(df.reindex(index=['A','B','C','D','E'],columns=['Campus','Num','Avg','Year'],fill_value=10))
#其他填充值的方法：
print(s1.reindex(index=range(15),method='ffill'))

结果：

运行结果

切割和删除(drop)
当reindex时指定的index少于原有的index的情况：这是一个类似于切割的操作
实例：

#这是一个类似于切割的操作
print(s1.reindex(index=[1,5]))
print(df.reindex(index=['A','B',],columns=['Num','Avg']))
print('drop删除')
print(s1.drop(5))
print(df.drop('B'))
print(df.drop('Num',axis=1))

结果：

运行结果

总结：
drop()函数的参数axis默认等于0，删除行，当axis=1，删除列，当然还有其他的参数例如how指定删除的模式，thresh多余大于就会被删除

五、Mapping与Replace

map
实例：

df1 = DataFrame({"城市":["北京","上海","广州"], "人口":[1000,2000,1500]},index = ['A','B','C'])
print(df1,'$$$$$$$$$$')
df1['GDP'] = Series([900,1600,3000])# 用Series添加一列
print(df1,'**************')
gdp_map = {"北京":900,"上海":1600,"广州":3000}#使用map添加一列
df1['GDP'] = df1['城市'].map(gdp_map)
print(df1,'&&&&&&&&&&&&&&&&')

结果：

运行结果
map的优势在与不需要关心index的顺序

replace
实例：

s1 = Series(np.arange(5))
print(s1)
print(s1.replace(1,np.nan))#将一个值替换成NaN
print(s1.replace([2,3,4],[20,30,40]))#替换多个值

结果：

运行结果
repalce的优势在于不管替换一个值还是多个值都很方便

网友评论

本文标题：数据分析（2）--Pandas入门

本文链接：https://www.haomeiwen.com/subject/bpwhiqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据分析（2）--Pandas入门

Series

DataFrames

相关文章

pandas入门

数据分析学习计划

Python（金融）数据分析（二）Pandas

利用Python进行数据分析（五）之pandas入门

第5章 Pandas入门(1)