Pandas 使用总结
1.Pandas 介绍
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
——来自百度百科
简单来说,pandas是一个能够方便快捷地处理表格等结构数据的工具包,能够很方便地读取,处理excel等数据。
能够大大简化数据分析的工作。
2.安装命令
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas
3.导入包
import pandas as pd
4.创建,读取DataFrame
-
通过数组创建表格
array = [1, 2, 3, 4, 5] pd.DataFrame(array,columns=['数据'])
-
通过字典创建表格
pd.DataFrame({'数据':array})
-
读入excel文件创建表格
pd.read_excel('study.xlsx')
read_excel 参数:
- io: 读取的数据流,如果是字符串,则是文件的路径
- sheetname:工作表名称
- header:指定作为标签的列,默认不指定
- 其他参数参见:https://pandas.pydata.org/pandas-docs/version/0.14.0/generated/pandas.read_excel.html
-
读入csv文件创建表格
pd.read_csv('study.csv')
read_csv 参数:
- io: 同上
- sep:用作分割的字符串
- quoting :
- 其他参数参考:https://pandas.pydata.org/pandas-docs/version/0.14.0/generated/pandas.read_csv.html#pandas.read_csv
5.保存数据
df.to_excel('study.xlsx')
df.to_csv('study.csv')
6.数据处理之增删改查
增加数据
- 增加行数据
df.loc[len(df)]=2 # 使用这种方式需要注意索引列的设置方式,不设置索引列,自动生成一行索引列
df_new = pd.concat([df3,df4],ignore_index=True)
-
增加列数据
df['第二列'] = [1, 2, 3, 4, 5]
删除数据
df.drop(axis=0,index=0) # 删除某一行
df.drop(axis=1,index=0) # 删除某一列
drop 中如果指定 inplace = True
则会再原来的数据上做修改
另外:
对空值的处理:
df.dropNa()
可以删除包含nan的数据行或者列
查询和修改数据
df['某一列'][1]
df.loc[:,'某一列']
df.iloc[1,1]
df.loc[df['某一列']==1]
df.loc[df['某一列']==1&]:通过这种方式可以快速筛选需要的值,其中,表达式支持 &和|作为与 或操作
高级功能
df.info() # 可以查看数据表的结构
df.describe() # 可以查看每一列的描述
df.shift(-1) # 可以使数据上下移动
分组
df.groupby(by='列名').apply(lambda x:print(np.sum(x))
后续等待更新
网友评论