pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
【百度】Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。
两个主要数据结构:Series,DataFrame
Series
Series是一种类似于一维数组的对象,与Numpy中的一维array类似。
from pandas import Series, DataFrame
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
ser = Series([4, 6, 7, 2, 9])
print(ser)
print(ser.values)
print(ser.index)
ser1 = Series([4, 5, 7, 4], index=['d', 'b', 'a', 'c'])
print(ser1)
print(ser1.index)
print(ser1['c'])
pd.isnull(ser)
pd.notnull(ser)
ser.isnull()
'''
0 4
1 6
2 7
3 2
4 9
dtype: int64
[4 6 7 2 9]
RangeIndex(start=0, stop=5, step=1)
d 4
b 5
a 7
c 4
dtype: int64
Index(['d', 'b', 'a', 'c'], dtype='object')
4
Out[12]:
0 False
1 False
2 False
3 False
4 False
dtype: bool
'''
方法:pd.isnull(obj),pd.notnull(obj), obj.isnull()
属性:name, index.name
SeriesObj.name = 'SeriesTest'
SeriesObj.index.name = 'gender'
在算术运算中Series会自动对齐不同索引的数据进行运算
DataFrame
DataFrame是一个表格型的数据结构,含有一组有序的列,每列可以是不同的值类型,不仅有行索引也有列索引。
data1 = {
'name': ['wills', 'april', 'chang', 'hang'],
'gender': ['m', 'f', 'm', 'm'],
'age': [30, 26, 30, 24]
}
df1 = DataFrame(data1)
#指定列的顺序
df2 = DataFrame(data1, columns=['age', 'gender', 'name'])
#删除某列
del df2['gender']
dataframe
删除某列
网友评论