一. pandas简介
1. 什么是pandas
pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。
Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。
pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
官方API文档: https://pandas.pydata.org/docs/reference/index.html
2. 列表/numpy/pandas
3. 为什么numpy/pandas比列表高效?
列表在内存中的存储是不连续的, 而numpy/pandas中的数据在内存中是连续的
二. pandas安装
(1). 升级PIP
python -m pip install --upgrade pip -i https://pypi.douban.com/simple --user
(2). 安装pandas
pip install --upgrade pandas -i https://pypi.douban.com/simple
至此pandas安装完成, 我们写一个小例子:
import pandas as pd
s1 = pd.Series([100,23,'熊爸'])
print(s1)
运行结果:
如果想操作excel还需要安装以下库:
(3). xlrd : 读excel库
pip install --upgrade xlrd -i https://pypi.douban.com/simple
(4).openpyxl : 用于解决Excel(WPS等均可使用)中扩展名为xlsx/xlsm/xltx/xltm的文件读写的第三方库
pip install --upgrade openpyxl -i https://pypi.douban.com/simple
(5).Matplotlib : 绘制二维图像
pip install --upgrade matplotlib -i https://pypi.douban.com/simple
还有以下工具, 可以提高效率或生产力
(6).pillow : 图像压缩工具
pip install --upgrade pillow -i https://pypi.douban.com/simple
(7). 安装 jupyter :实时运行,并更美观的输出结果
pip install --upgrade jupyter -i https://pypi.douban.com/simple
使用起来很简单,只需要点击绿色的运行按钮,结果就会在代码块底部运行并展示
三. pandas中的两个数据结构: Series/DataFrame
Series是一维数据
DataFrame是二维数据, 每个DataFrame都由多个Series组成
pandas中没有三维及以上的数据
四. 创建Series对象的构造函数
class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
参数 | 说明 |
---|---|
data | 包含存储在Series中的数据。如果数据是字典,则保持参数顺序。 |
index | index必须是可散列的,并且与data的长度相同。允许使用非唯一索引值。如果未提供,则默认为RangeIndex(0,1,2,…,n)。如果数据类似于dict并且索引为None,则数据中的键将用作索引。如果索引不为None,则使用索引值对所得Series系列重新索引。 |
dtype | 输出系列的数据类型。如果未指定,则将从data推断出来。 |
name | Series的名称 |
copy | 略 |
fastpath | 略 |
例子(1) : 用列表创建
import pandas as pd
s1 = pd.Series([1,2,4],index = list("abc"),name = "列表创建的Series",dtype= "int32")
print(s1)
例子(2) : 用字典创建
import pandas as pd
dict1 = {"叮东":28,"淘跑":20,"唯饼会":25}
s1 = pd.Series(dict1,name = "熊爸双11销量",dtype= "int32")
print(s1)
例子(3) : 用数值创建
index决定了数据的长度
import pandas as pd
s1 = pd.Series(3.0,index= ["豆瓣评分","时光网评分","知乎评分"])
print(s1)
五. 创建DataFrame对象的构造函数
一般我们创建DataFrame对象有三种方法:
构造函数
class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
参数 | 说明 |
---|---|
data | 包含存储在DataFrame中的数据。可以是:类数组,迭代器,字典 或DataFrame。 |
index | 用于结果帧的索引。如果没有输入数据的索引信息部分并且没有提供索引,则默认为RangeIndex。 |
columns | 用于结果框架的列标签。如果未提供列标签,则默认为RangeIndex(0,1,2,…,n)。 |
dtype | 强制的数据类型。仅允许单个dtype。如果没有,则推断。 |
copy | 略 |
例子(1) : 用列表创建
import pandas as pd
list_2d = [
[1, 2, 3],
[4, 5, 6]
]
s1 = pd.DataFrame(list_2d, columns=[
"豆瓣评分", "时光网评分", "猫眼评分"], index=["流浪地球", "唐人街探案"])
print(s1)
例子(2) : 用字典创建
import pandas as pd
dict_2d = {
"豆瓣评分":[1,2],
"时光网评分":[3,4],
"猫眼评分":[5,6]
}
s1 = pd.DataFrame(dict_2d, index=[
"流浪地球", "唐人街探案"])
print(s1)
读取excel表格创建DataFrame
这里我们就要用到之前下载的xlrd和openpyxl
读取时区分xls和xlsx,因为xlrd最新版反而不支持xlsx了😂😂😂,所以读取xlsx时要用openpyxl
(1)读取xls
import pandas as pd
df1 = pd.read_excel("goods_base.xls")
print(df1)
(2)读取xlsx
读取xlsx要规定好读取引擎
import pandas as pd
df1 = pd.read_excel("goods_base.xlsx",engine='openpyxl')
print(df1)
网友评论