- Pandas是2008年WasMcKinney开发出的库
- 专门用于数据挖掘的开源python库
- 以Numpy为基础,借力Numpy模块再计算方面性能高的优势
- 基于matplotlib,能够简便的画图
- 独特的数据结构(Series - 一维数据,DataFrame - 二维数据,Panel - 三维数据)
其中,Panel会很少使用,通常会使用multiindex这种结构解决三维数据的问题
1.「DataFrame」的数据结构
DataFrame对象即有行索引,又有列索引
-
行索引,表明不同行,横向索引,叫index,0轴,axis=0
-
列索引,表明不同列,纵向索引,叫columns,1轴,axis=1
-
pd.date_range(): 用于生成一组连续的时间序列
-
DataFrame的属性有:shape, dtypes, ndim, index, columns, values(不包含索引), T
-
方便整体查询:DataFrame.head() 与 DataFrame.tail()
2. DataFrame索引的设置
DataFrame的索引不允许单个修改,必须整体全部修改传进去
- DataFrame.reset_index(drop= True/False) : 将原来的索引删除或者变成一列值,添加新的按照下标数字的索引
- DataFrame.set_index() : 以某列值设置为新的索引值,返回一个dataframe,可以设置多重索引
3. Series
Series是一维的数据结构,只有行索引,没有列索引
- 创建Series:
pd.Series(np.arange(10))
pd.Series([6,7,8,9,10], index =
pd.Series({'red':100, 'blue':500,'green':800})
网友评论