本文涉及pandas最常用的36个函数,通过这些函数介绍如何完成数据生成和导入、数据清洗、预处理,以及最常见的数据分类,数据筛选,分类汇总,透视等最常见的操作。
生成数据表
常见的生成数据表的方法有两种,第一种是导入外部数据,第二种是直接写入数据。
Excel中的“文件”菜单中提供了获取外部数据的功能,支持数据库和文本文件和页面的多种数据源导入。
Python支持从多种类型的数据导入。在开始使用Python进行数据导入前需要先导入numpy和pandas库
data:image/s3,"s3://crabby-images/03858/03858c8388d85c1b69d1a6183f840a1587e49457" alt=""
导入外部数据
data:image/s3,"s3://crabby-images/cc4a8/cc4a8d439d17b5fe73078f461e00cb5e4b6c39a3" alt=""
里面有很多可选参数设置,例如列名称、索引列、数据格式等
直接写入数据
data:image/s3,"s3://crabby-images/092a0/092a06cf3e57c6a8c7e7f3c107966ec0d547bf2b" alt=""
数据表检查
数据表检查的目的是了解数据表的整体情况,获得数据表的关键信息、数据的概况,例如整个数据表的大小、所占空间、数据格式、是否有 空值和重复项和具体的数据内容,为后面的清洗和预处理做好准备。
1.数据维度(行列)
Excel中可以通过CTRL+向下的光标键,和CTRL+向右的光标键 来查看行号和列号。Python中使用shape函数来查看数据表的维度,也就是行数和列数。
df.shape
2.数据表信息
使用info函数查看数据表的整体信息,包括数据维度、列名称、数据格式和所占空间等信息。#数据表信息
data:image/s3,"s3://crabby-images/e1704/e1704a9b264d7c6165b7c403085aef8d224e0ccb" alt=""
3.查看数据格式
Excel中通过选中单元格并查看开始菜单中的数值类型来判断数 据的格式。Python中使用dtypes函数来返回数据格式。
Dtypes是一个查看数据格式的函数,可以一次性查看数据表中所 有数据的格式,也可以指定一列来单独查看
data:image/s3,"s3://crabby-images/d9482/d948253a306af9b143ae3395ddab99e9229f3560" alt=""
4.查看空值
Excel中查看空值的方法是使用“定位条件”在“开始”目录下的“查找和选择”目录.
Isnull是Python中检验空值的函数
data:image/s3,"s3://crabby-images/02227/022270d7a9fe8f60335be1568170c30f311308f3" alt=""
data:image/s3,"s3://crabby-images/84f62/84f62933eb0897992dba63645338f2cfd90a566e" alt=""
5.查看唯一值
Excel中查看唯一值的方法是使用“条件格式”对唯一值进行颜色 标记。
Python中使用unique函数查看唯一值。
data:image/s3,"s3://crabby-images/9a030/9a0309650322f388b316311bd740e4135c27971a" alt=""
6.查看数据表数值
Python中的Values函数用来查看数据表中的数值
data:image/s3,"s3://crabby-images/a284d/a284d35bcf0254b2d3908fa118243173e1116a16" alt=""
7.查看列名称
Colums函数用来单独查看数据表中的列名称。
data:image/s3,"s3://crabby-images/ead1d/ead1dfc43c302a7ed7c46834002a570e81f20244" alt=""
8.查看前10行数据
Head函数用来查看数据表中的前N行数据
data:image/s3,"s3://crabby-images/433a8/433a88634d94340b484b1bdc246531ad198de6e4" alt=""
9.查看后10行数据
Tail行数与head函数相反,用来查看数据表中后N行的数据
data:image/s3,"s3://crabby-images/9f860/9f860d18345b03f7f663b20447e0bc2e4abb8110" alt=""
数据表清洗
本章介绍对数据表中的问题进行清洗,包括对空值、大小写问题、数据格式和重复值的处理。
1.处理空值(删除或填充)
Excel中可以通过“查找和替换”功能对空值进行处理
Python中处理空值的方法比较灵活,可以使用 Dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充。
data:image/s3,"s3://crabby-images/5532d/5532dbc37ef77914829b21cf83aa62938820dfb3" alt=""
也可以使用数字对空值进行填充
data:image/s3,"s3://crabby-images/27228/27228a4aa7a9ad669e1a2b87c6a6735e8126340d" alt=""
使用price列的均值来填充NA字段,同样使用fillna函数,在要填充的数值中使用mean函数先计算price列当前的均值,然后使用这个均值对NA进行填充。
data:image/s3,"s3://crabby-images/989fd/989fd9f1cbfd5bbcd1d8ede500b74c37c359e14f" alt=""
2.清理空格
字符中的空格也是数据清洗中一个常见的问题
data:image/s3,"s3://crabby-images/be685/be685ccc2a117e51741d5413e4b0074b52f50bb9" alt=""
3.大小写转换
在英文字段中,字母的大小写不统一也是一个常见的问题。Excel中有UPPER,LOWER等函数,Python中也有同名函数用来解决 大小写的问题。
data:image/s3,"s3://crabby-images/5d17f/5d17f5160d9d6b70fd58834f481e62dc520a0286" alt=""
4.更改数据格式
Excel中通过“设置单元格格式”功能可以修改数据格式。
Python中通过astype函数用来修改数据格式。
data:image/s3,"s3://crabby-images/59179/59179ea45f7f0645256b815c64c45fe5d2b7995b" alt=""
5.更改列名称
Rename是更改列名称的函数,我们将来数据表中的category列更改为category-size。
data:image/s3,"s3://crabby-images/ab10e/ab10edf65f0b990804583cbfaed0d44c182cca62" alt=""
6.删除重复值
Excel的数据目录下有“删除重复项”的功能
Python中使用drop_duplicates函数删除重复值
data:image/s3,"s3://crabby-images/26321/26321bf46936e433ea2994fe4b5417a4e5c6609b" alt=""
city列中beijing存在重复,分别在第一位和最后一位 drop_duplicates()函数删除重复值
data:image/s3,"s3://crabby-images/d5798/d5798e579f6e9177d6c97b24e7293aab7d75af95" alt=""
设置keep='last‘’参数后,与之前删除重复值的结果相反,第一位 出现的beijing被删除
data:image/s3,"s3://crabby-images/e0793/e07931a1e5c08df81bc93489cddadd0aaeed31ef" alt=""
7.数值修改及替换
Excel中使用“查找和替换”功能就可以实现数值的替换
Python中使用replace函数实现数据替换
data:image/s3,"s3://crabby-images/1f1db/1f1db42094d9f6335dc30a973bd3cbc30b56ffc7" alt=""
数据预处理
本章主要讲的是数据的预处理,对清洗完的数据进行整理以便后期的统计和分析工作。主要包括数据表的合并,排序,数值分列,数据分组及标记等工作。
1.数据表合并
在Excel中没有直接完成数据表合并的功能,可以通过VLOOKUP函数分步实现。在Python中可以通过merge函数一次性实现。
data:image/s3,"s3://crabby-images/b3716/b3716c050824dab7e7ffa2aa980620a1532febad" alt=""
使用merge函数对两个数据表进行合并,合并的方式为inner,将 两个数据表中共有的数据匹配到一起生成新的数据表。并命名为 df_inner。
data:image/s3,"s3://crabby-images/8bd26/8bd26a742dfc68a46acefb728c761876bfd2bead" alt=""
合并的方式还有left,right和outer方式
data:image/s3,"s3://crabby-images/c0ef7/c0ef7247d9dbd31723549bcfe99e417d9e8c12bf" alt=""
2.设置索引列
索引列可以进行数据提取,汇总,数据筛选
data:image/s3,"s3://crabby-images/22371/2237132e72201edbcd38312f08eb192eae341d58" alt=""
3.排序(按索引,按数值)
Excel中可以通过数据目录下的排序按钮直接对数据表进行排 序
Python中需要使用ort_values函数和sort_index函数完成排序
data:image/s3,"s3://crabby-images/a7e61/a7e615072401c104afd6960c368893c9553492dc" alt=""
Sort_index函数用来将数据表按索引列的值进行排序。
data:image/s3,"s3://crabby-images/152a6/152a627a685c5c27c116f4f05b995e513876b276" alt=""
4.数据分组
Excel中可以通过VLOOKUP函数进行近似匹配来完成对数值的分组,或者使用“数据透视表”来完成分组
Python中使用Where函数用来对数据进行判断和分组
data:image/s3,"s3://crabby-images/d8863/d886313b899e3fddad0a84098e562819bce3ab47" alt=""
还可以对多个字段的值进行判断后对数据进行分组,下面的代码中对city列等于beijing并且price列大于等于4000的数据标记为1。
data:image/s3,"s3://crabby-images/58073/58073543309a79481044490edb48abe0ec09b8b6" alt=""
5.数据分列
Excel中的数据目录下提供“分列”功能。
在Python中使用split函数实现分列在数据表中category列中的数据包含有两个信息,前面的数字为类别id,后面的字母为size值。中间以连字符进行连接。我们使用split函数对这个字段进行拆分,并将拆分后的数据表匹配回原数据表中。
data:image/s3,"s3://crabby-images/77612/77612627507bc0518658de3192ead60a9d3ae2b9" alt=""
data:image/s3,"s3://crabby-images/9055e/9055eae5c79c6c0f262e3a3e04db8073e8fd3951" alt=""
数据提取
1.按标签提取(loc)
data:image/s3,"s3://crabby-images/0e6bc/0e6bcdb7999d0816c8709bd174d800fa7d29b7cc" alt=""
使用冒号可以限定提取数据的范围,冒号前面为开始的标签值后面为结束的标签值。
data:image/s3,"s3://crabby-images/e3b10/e3b10f7f0e6aab3bf650ed3b0f193cc65cb3548d" alt=""
Reset_index函数用于恢复索引,这里我们重新将date字段的日期 设置为数据表的索引,并按日期进行数据提取。
data:image/s3,"s3://crabby-images/eb28c/eb28cb0ddb735e8e3ae2c89c2c74a1c7a05e90a8" alt=""
data:image/s3,"s3://crabby-images/04d25/04d25c8c6e1ed56812b87237de5c8ce7f4225cc3" alt=""
data:image/s3,"s3://crabby-images/5cad0/5cad0a2acae1129e1c5f2f1bfb032bec8ec316f0" alt=""
2.按位置提取(iloc)
使用iloc函数按位置对数据表中的数据进行提取,这里冒号前后 的数字不再是索引的标签名称,而是数据所在的位置,从0开始。
data:image/s3,"s3://crabby-images/04f11/04f112b07e595bba8d9c77aecece605c78fae76a" alt=""
iloc函数除了可以按区域提取数据,还可以按位置逐条提取
data:image/s3,"s3://crabby-images/c5e3f/c5e3fe1b1a85476ea5a6308f307078282841cf23" alt=""
前面方括号中的0,2,5表示数据所在行的位置,后面方括号中的数表示所在列的位置。
3.按标签和位置提取(ix)
ix是loc和iloc的混合,既能按索引标签提取,也能按位置进行数 据提取.
data:image/s3,"s3://crabby-images/59a6e/59a6e49ab57898f12cce3044b9b80ac52a6ee66b" alt=""
image.png
4.按条件提取(区域和条件值)
使用loc和isin两个函数配合使用,按指定条件对数据进行提取
data:image/s3,"s3://crabby-images/bdd7f/bdd7f52f318bb931656ae82d7edd4dc815817f04" alt=""
将isin函数嵌套到loc的数据提取函数中,将判断结果为Ture数据 提取出来。这里我们把判断条件改为city值是否为beijing和shanghai。如果是就把这条数据提取出来。
data:image/s3,"s3://crabby-images/048ad/048adb962f8bda2f7c09c6ba734dda969de1f719" alt=""
数据筛选
按条件筛选(与、或、非)
Excel数据目录下提供了“筛选”功能,用于对数据表按不同的条 件进行筛选。
Python中使用loc函数配合筛选条件来完成筛选功能。配合sum和count函数还能实现Excel中sumif和countif函数的功能。使用“与”条件进行筛选,条件是年龄大于25岁,并且城市为 beijing。
data:image/s3,"s3://crabby-images/3e44f/3e44fe0ff9e2e6b7e28ff21a81754b9800c7b89c" alt=""
data:image/s3,"s3://crabby-images/3449b/3449be1a753be095fcd2d1115f07436f2d50b1d3" alt=""
data:image/s3,"s3://crabby-images/8779d/8779d894b1c939284e812f0c4c728687590d9b10" alt=""
data:image/s3,"s3://crabby-images/c478d/c478d0b15149eb7369edb158268d660555a66a0b" alt=""
在前面的代码后面增加city列,并使用count函数进行计数。相当于Excel中的countifs函数的功能
data:image/s3,"s3://crabby-images/be97f/be97f154736ee9c261fc0b8b19e26d60ff24a301" alt=""
还有一种筛选的方式是用query函数
data:image/s3,"s3://crabby-images/aabd1/aabd134d53207afbc6320efd3ea4cf0910304821" alt=""
data:image/s3,"s3://crabby-images/cbd57/cbd5715d99b28d9594604b36ac692167c96e1a67" alt=""
在前面的代码后增加price字段和sum函数。对筛选后的price字段 进行求和,相当于Excel中的sumifs函数的功能。
data:image/s3,"s3://crabby-images/09786/09786011dc5f00637ad1847ecff94d220187ef6a" alt=""
数据汇总
Excel中使用分类汇总和数据透视可以按特定维度对数据进行汇总,Python中使用的主要函数是groupby和pivot_table。
1.分类汇总
data:image/s3,"s3://crabby-images/2fc88/2fc88bd2502729044752a5fb70268061534d3680" alt=""
data:image/s3,"s3://crabby-images/a86bb/a86bbadef801c14f6d8d006bbb89b5521132bbdd" alt=""
data:image/s3,"s3://crabby-images/024e9/024e97c0a1db4164e05de4c5abc078810b1e0e7d" alt=""
还可以对汇总后的数据同时按多个维度进行计算
data:image/s3,"s3://crabby-images/0e568/0e568bdd0798cbb1a006439f97b46807f257ec9c" alt=""
data:image/s3,"s3://crabby-images/2713b/2713b3432de036655476619ef1acd3312dc47719" alt=""
2.数据透视
data:image/s3,"s3://crabby-images/3f42e/3f42eb41575682ff4d205ae6ec372420a3669139" alt=""
Python中通过pivot_table函数实现同样的效果
data:image/s3,"s3://crabby-images/30cec/30cecea6130b4e02cc83b04dedb3693da4def8b6" alt=""
data:image/s3,"s3://crabby-images/c8391/c83911baed746b58059de30bd74d1f6b60633e72" alt=""
数据统计
1.数据采样
Excel的数据分析功能中提供了数据抽样的功能
data:image/s3,"s3://crabby-images/c2ff0/c2ff02436d41b6d3a20115f7c8f63feb476150de" alt=""
Python通过sample函数完成数据采样
data:image/s3,"s3://crabby-images/13a88/13a88f9267d453fb10e69169fb814cf7f7333528" alt=""
data:image/s3,"s3://crabby-images/f0775/f07753cc60a6b7ab0272cb5e19f2737c297739c2" alt=""
Weights参数是采样的权重,通过设置不同的权重可以更改采样的结果
data:image/s3,"s3://crabby-images/406bd/406bd131a1cb1ef86d0bddc4a67835895d58cd8a" alt=""
data:image/s3,"s3://crabby-images/3e946/3e946ce41b9f2bb2a1d10a2c074491325cb23170" alt=""
Sample函数中参数replace,用来设置采样后是否放回
data:image/s3,"s3://crabby-images/151fd/151fd8d32ef1532d9a7b7f48f9e35f31c8e6e298" alt=""
2.描述统计
Python中可以通过Describe对数据进行描述统计
data:image/s3,"s3://crabby-images/6078b/6078b6d8dbaf3fbfb1b74caa9fc4efd7b1c49427" alt=""
3.相关分析
Python中则通过corr函数完成相关分析的操作,并返回相关系数。
data:image/s3,"s3://crabby-images/e4230/e4230ad7e36009b0d864b4a6ca504722684b4eff" alt=""
数据输出
1.写入Excel
data:image/s3,"s3://crabby-images/13b21/13b211eb4d97ed51c83741401f87f219e0d9bf47" alt=""
2.写入csv
data:image/s3,"s3://crabby-images/c8596/c8596aad7270c1e3c24a665e11d78cd642e917db" alt=""
参考
王彦平《从Excel到Python:数据分析进阶指南》
网友评论