数据分析(2)--Pandas入门

作者: 坚持后的收获 | 来源:发表于2019-04-09 00:21 被阅读140次

一、Pandas概述
Pandas 是基于 NumPy 的一个开源 Python 库,它被广泛用于快速分析数据,以及数据清洗和准备等工作;主要有两个主要数据结构Series(1维)和DataFrame(2维)处理金融,统计,社会科学和许多工程领域中的绝大多数典型用例,在Anaconda安装conda install pandas, 或者用自带的包管理工具 pip 来安装pip install pandas

二、Pandas数据结构(series和DataFrame)

  • 数据结构的创建

Series

首先导入两个包:
import numpy as np
import pandas as pd
实例:

data = [1,2,3,4,5]
index = [1,2,3,4,5]
my_series = pd.Series(data)#不设置index
my_series1  = pd.Series(data, index)#设置index
print(my_series, 1)
print(my_series1, 2)

结果:

运行结果
总结:
上面的 data参数可以是任意数据对象,比如字典、列表甚至是 NumPy 数组,而index 参数则是对 data 的索引值,类似字典的 key; index 参数是可省略的,你可以选择不输入这个参数。如果不带 index 参数,Pandas 会自动用默认 index 进行索引,类似数组,索引值是 [0, ..., len(data) - 1]
  • 用Numpy数组对象和Python字典创建Series
    实例:
my_data = [11,12,13,14,15]
my_dict = {'a':11, 'b':12, 'c':13, 'd':14, 'e':15}
np_arry = np.array(my_data) 
print(my_data,'numpy的数组')

my_series = pd.Series(my_data)#用numpy数组创建Series
my_series1  = pd.Series(my_dict)#用字典创建Series
my_series2 = pd.Series(np.arange(5))
print(my_series, 1)
print(my_series1, 2)
print(my_series2,3)

结果:

运行结果

总结
如果你从一个 Python 字典对象创建 Series,Pandas 会自动把字典的键值设置成 Series 的 index,并将对应的 values 放在和索引对应的 data 里。和 NumPy 数组不同,Pandas 的 Series 能存放各种不同类型的对象。

  • Series 里获取数据 访问 Series 里的数据的方式,和 Python 字典基本一样:
    实例:
my_series1  = pd.Series([1,2,3,4,5],index=['a', 'b', 'c', 'd', 'e'])
print(my_series1)
my_series1['b']

结果:

运行结果
  • Series的一些方法和函数:
    my_series.values, my_series.index, isnull()
    实例:
my_series1  = pd.Series([1,2,3,4,5],index=['a', 'b', 'c', 'd', 'e'])

print(my_series1.values,1)
print(my_series1.index,2)
print(my_series1.to_dict,3)

结果:

运行结果
  • 对 Series 进行算术运算操作
    对 Series 的算术运算都是基于 index 进行的。我们可以用加减乘除(+ - * /)这样的运算符对两个 Series 进行运算,Pandas 将会根据索引 index,对响应的数据进行计算,结果将会以浮点数的形式存储,以避免丢失精度。

实例:

data = [1,2,3,4,5]
data2 =[7,8,9,10,12]
index = [1,2,3,4,5]
my_series = pd.Series(data)
my_series1  = pd.Series(data2, index)
print(my_series, 1)
print(my_series1, 2)
my_series1 - my_series#两个做差

结果:

运行结果

DataFrames

Pandas 的 DataFrame(数据表)是一种 2 维数据结构,数据以表格的形式存储,分成若干行和列。通过 DataFrame,你能很方便地处理数据。常见的操作比如选取、替换行或列的数据,还能重组数据表、修改索引、多重筛选等
构建一个 DataFrame 对象的基本语法如下:

  • Series 来构建一个DataFrame:
    实例:
dct = {'Campus':pd.Series(['北京','深圳','上海','广州'], index=['a','b','c','d']),'Num':pd.Series([5000,4000,3000,2000],index=['a','b','c','d']),'Avg':pd.Series(['10K','9.8K','9K','8K'],index=['a','b','c','d'])}
df = pd.DataFrame(dct)
print(df)
#或者
df1 = pd.DataFrame(dct, columns=['Campus','Avg'])
print(df1)

结果:

运行结果
  • 用一个字典来创建 DataFrame:
dct = {'Campus':['北京','深圳','上海','广州'],'Num':[5000,4000,3000,2000],'Avg':['10K','9.8K','9K','8K']}
df = pd.DataFrame(dct)
print(df)
#或者
df1 = pd.DataFrame(dct, columns=['Campus','Avg'])
print(df1)

结果:

image.png
  • 获取 DataFrame 中的列
    实例:
df['Campus']#获取DataFrame中的一列
print(type(df['Campus']))#获取返回的类型

df[['Campus', 'Avg']]#获取DataFrame中的多列
print(type(df[['Campus', 'Avg']]))#获取返回的类型

结果:

运行结果
总结
因为我们只获取一列,所以返回的就是一个 Series。可以用 type() 函数确认返回值的类型,如果获取多个列,那返回的就是一个 DataFrame 类型。
  • 三、DataFrame的IO操作

Pandas 常用的IO操作列表:


IO操作表
  • 复制表格中的数据到剪切板和把数据放入到粘粘板中,数据可以直接粘粘到excel文件中
    df1 = pd.read_clipboard()df1.to_clipboard()
  • 写入和读写csv文件,可以取消index
    df1.to_csv('df1.csv')df1.to_csv('df1.csv', index = False)df2 = pd.read_csv('df1.csv')
  • 转化为json格式和读取json
    df1.to_json()pd.read_json(df1.to_json())
  • 转换为excel格式和读取
    df1.to_excel('df1.xlsx')df1.read_excel('df1.xlsx')
  • df1.head()df1.tail()默认返回前后5行

四、Series和DataFramede Reindexing
首先导入from pandas import Series, DaraFrame
实例:

#添加index
s1 = Series(['A', 'B', 'C'], index=[1,5,10])
print(s1)
dct = {'Campus':['北京','深圳','上海','广州'],'Num':[5000,4000,3000,2000],'Avg':['10K','9.8K','9K','8K']}
df = pd.DataFrame(dct,index=['A','B','C','D'])
print(df)

结果:

运行结果
  • reindex填充值
    实例:
print(s1.reindex(index=[1,5,10,15,20]))#在reindex的时候添加的新的index对应的值并未指定,默认就是NaN
print(df.reindex(index=['A','B','C','D','E'],columns=['Campus','Num','Avg','Year']))
print(s1.reindex(index=[1,5,10,15,20], fill_value=10 ))#为新的index指定固定值10
print(df.reindex(index=['A','B','C','D','E'],columns=['Campus','Num','Avg','Year'],fill_value=10))
#其他填充值的方法:
print(s1.reindex(index=range(15),method='ffill'))

结果:

运行结果
  • 切割和删除(drop)
    当reindex时指定的index少于原有的index的情况:这是一个类似于切割的操作
    实例:
#这是一个类似于切割的操作
print(s1.reindex(index=[1,5]))
print(df.reindex(index=['A','B',],columns=['Num','Avg']))
print('drop删除')
print(s1.drop(5))
print(df.drop('B'))
print(df.drop('Num',axis=1))

结果:

运行结果

总结:
drop()函数的参数axis默认等于0,删除行,当axis=1,删除列,当然还有其他的参数例如how指定删除的模式,thresh多余大于就会被删除

五、Mapping与Replace

  • map
    实例:
df1 = DataFrame({"城市":["北京","上海","广州"], "人口":[1000,2000,1500]},index = ['A','B','C'])
print(df1,'$$$$$$$$$$')
df1['GDP'] = Series([900,1600,3000])# 用Series添加一列
print(df1,'**************')
gdp_map = {"北京":900,"上海":1600,"广州":3000}#使用map添加一列
df1['GDP'] = df1['城市'].map(gdp_map)
print(df1,'&&&&&&&&&&&&&&&&')

结果:

运行结果
map的优势在与不需要关心index的顺序

replace
实例:

s1 = Series(np.arange(5))
print(s1)
print(s1.replace(1,np.nan))#将一个值替换成NaN
print(s1.replace([2,3,4],[20,30,40]))#替换多个值

结果:

运行结果
repalce的优势在于不管替换一个值还是多个值都很方便

相关文章

网友评论

    本文标题:数据分析(2)--Pandas入门

    本文链接:https://www.haomeiwen.com/subject/bpwhiqtx.html