首先你需要准备一套开发环境,视频教程可以点这里
导入模块
import numpy as np
import pandas as pd
把这两个模块都先导入进来吧,以后就省事了!
查看pandas的版本
print(pd.__version__)
输出
0.24.1
这样以后你看文档资料就知道该去看哪个版本了!~
Series
pd处理数据一般用两种数据结构Series和DataFrame,来看看Series。
Series是1维的数据,把他理解成numpy中的一行就好了。
import numpy as np
import pandas as pd
mylist = list('abc')
myarr = np.arange(3)
mydict = dict(zip(mylist, myarr))
ser1 = pd.Series(mylist)
ser2 = pd.Series(myarr)
ser3 = pd.Series(mydict)
print("{}\n{}\n{}\n".format(ser1, ser2, ser3))
输出:
0 a
1 b
2 c
dtype: object
0 0
1 1
2 2
dtype: int64
a 0
b 1
c 2
dtype: int64
Series可以方便的通过list,array还有dict来构建。
输出的最后一行是Series中数据的类型,这里的数据都是int64类型的。
数据在第二列输出,第一列是数据的索引,在pandas中称之为Index。
series
你也可以在构建Series的时候,指定index来代替默认的0~n数字式索引。
ser4 = pd.Series([100,200,150], index = ['apple', 'banana', 'peach'])
ser4
输出:
apple 100
banana 200
peach 150
dtype: int64
某种意义上Series有点像python中的字典。
最后我们可以方便的通过下标和index来访问Series中的数据。
下标方式访问:
ser4['banana']#通过下标访问
输出:
200
index方式访问:
ser4[1] #通过index访问
输出:
200
网友评论