美文网首页
Python | 快速入门Pandas模块(二)数据的查看、统计

Python | 快速入门Pandas模块(二)数据的查看、统计

作者: 金融测试民工 | 来源:发表于2020-02-04 11:24 被阅读0次

        在上一篇文章里,我们了解完基础的数据创建、读取和存储,这里以我们上一篇的案例数据为例,迅速熟悉查看N行,数据格式概览以及基础统计数据。

    数据的查看和统计

    1、查看数据,掐头看尾

        很多时候我们想要对数据内容做一个查看,用df.head()函数直接可以查看默认的前5行,与之对应,df.tail()就可以查看数据尾部的5行数据,这两个参数内可以传入一个数值来控制查看的行数,例如df.head(10)表示查看前10行数据。

    df.head()

    df.tail()

    2、 格式查看

        df.info()帮助我们一步摸清各列数据的类型,以及缺失情况:

    格式查看

        从上面直接可以知道数据集的行列数,数据集的大小,每一列的数据类型,以及有多少条非空数据。

    3、统计信息概览

        快速计算数值型数据的关键统计指标,像平均数、中位数、标准差等等。

    数据统计

        其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、最小值和最大值,25%、50%、75%对应的则是分位数。

    还有其他的函数如下例子:

    # 查看数据的行列数

    print('数据集的行列数:',df.shape)

    # 查看数据集每个变量的数据类型

    print('各变量的数据类型:',df.dtypes)

    数据预览函数

    列的基本处理方式

            这里,我们采用SQL四大法宝的逻辑来简单梳理针对列的基本处理方式——增、删、查、改。

    1、增:

        增加一列,用df['新列名'] = 新列值的形式,在原数据基础上赋值即可:

    新增列

    2、删:

        我们用drop函数制定删除对应的列,axis = 1表示针对列的操作,inplace为True,则直接在源数据上进行修改,否则源数据会保持原样。

    删减列

    3、查:

        想要查看某一列怎么办?df['列名']即可:

    查看某一列

        选取多列呢?需要用列表来传递:df[['第一列','第二列','第三列'..]]

    多列查看

    4、 改:

        复杂的针对特定条件和行列的筛选、修改,放在后面结合案例细讲,这里只讲一下最简单的更改:df['旧列名'] =  某个值或者某列值,就完成了对原列数值的修改。

    函数表:

    数据的增删改查

    案例:

    # 数据读入

    df = pd.read_excel(r'C:UsersAdministratorDesktopdata_test.xlsx')

    # 缺失观测的检测

    print('数据集中是否存在缺失值:',any(df.isnull()))

    # 删除法之记录删除

    df.dropna()

    # 删除法之变量删除

    df.drop('age', axis = 1)

    # 替换法之前向替换

    df.fillna(method = 'ffill')

    # 替换法之后向替换

    df.fillna(method = 'bfill')

    # 替换法之常数替换

    df.fillna(value = 0)

    # 替换法之统计值替换

    df.fillna(value = {'gender':df.gender.mode()[0], 'age':df.age.mean(),     

                       'income':df.income.median()})


    常用数据类型及操作

    1、字符串

        字符串类型是最常用的格式之一了,Pandas中字符串的操作和原生字符串操作几乎一毛一样,唯一不同的是需要在操作前加上".str"。

        在案例数据中,我们发现来源明细那一列,可能是系统导出的历史遗留问题,每一个字符串前面都有一个“-”符号,又丑又无用,所以把他给拿掉:

    字符串操作

    一般来说清洗之后的列是要替换掉原来列的:

    字符串处理

    2、 数值型

        数值型数据,常见的操作是计算,分为与单个值的运算,长度相等列的运算。

        以案例数据为例,源数据访客数我们是知道的,现在想把所有渠道的访客都加上10000,怎么操作呢?

    字符型操作

        只需要选中访客数所在列,然后加上10000即可,pandas自动将10000和每一行数值相加,针对单个值的其他运算(减乘除)也是如此。

        但如果我们要算销售额呢?(销售额 = 访客数 X 转化率 X 客单价),对应操作语句:df['销售额'] = df['访客数']  * df['转化率']  * df['客单价']。但为什么疯狂报错?

        导致报错的原因,是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据

    字符串转化

        要注意的是,这样操作,把9.98%变成了9.98,所以我们还需要让支付转化率除以100,来还原百分数的真实数值:

    单位转化

        然后,再用三个指标相乘计算销售额:

    销售额

    3、时间类型

        PANDAS中时间序列相关的水非常深,这里只对日常中最基础的时间格式进行讲解。以案例数据为例,我们这些渠道数据,是在2019年8月2日提取的,后面可能涉及到其他日期的渠道数据,所以需要加一列时间予以区分,在EXCEL中常用的时间格式是'2019-8-3'或者'2019/8/3',我们用PANDAS来实现一下:

    日期格式

        在实际业务中,一些时候PANDAS会把文件中日期格式的字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增的日期列,然后用to_datetime()函数将字符串类型转换成时间格式:

    字符串转为时间格式

        转换成时间格式(这里是datetime64)之后,我们可以用处理时间的思路高效处理这些数据,比如,我现在想知道提取数据这一天离年末还有多少天('2019-12-31'),直接做减法(该函数接受时间格式的字符串序列,也接受单个字符串):

    日期的处理

    类型转换函数如下:

    类型转换与元素及运算 

    案例:

    # 数据读入

    df = pd.read_excel(r'C:UsersAdministratorDesktopdata_test.xlsx')

    # 将birthday变量转换为日期型

    df.birthday = pd.to_datetime(df.birthday, format ='%Y/%m/%d')

    # 将手机号转换为字符串

    df.tel = df.tel.astype('str')

    # 新增年龄和工龄两列

    df['age'] = pd.datetime.today().year - df.birthday.dt.year

    df['workage'] = pd.datetime.today().year - df.start_work.dt.year

    # 将手机号中间四位隐藏起来

    df.tel = df.tel.apply(func =lambdax : x.replace(x[3:7],'****'))

    # 取出邮箱的域名

    df['email_domain'] = df.email.apply(func =lambdax : x.split('@')[1])

    # 取出人员的专业信息

    df['profession'] = df.other.str.findall('专业:(.*?),')

    # 去除birthday、start_work和other变量

    df.drop(['birthday','start_work','other'], axis =1, inplace =True)


    数据合并、连接与汇总

        最后一部分是DataFrame 的合并,我这给出函数表和案例,大家可以自己试试。

    数据合并、连接与汇总

    # 构造数据集df1和df2

    df1 = pd.DataFrame({'name':['张三','李四','王二'], 'age':[21,25,22], 

                      'gender':['男','女','男']})

    df2 = pd.DataFrame({'name':['丁一','赵五'], 'age':[23,22], 'gender':['女','女']})

    # 数据集的纵向合并

    pd.concat([df1,df2] , keys = ['df1','df2'])

    # 如果df2数据集中的“姓名变量为Name”

    df2 = pd.DataFrame({'Name':['丁一','赵五'], 'age':[23,22], 'gender':['女','女']})

    # 数据集的纵向合并

    pd.concat([df1,df2])

    # 构造数据集

    df3 = pd.DataFrame({'id':[1,2,3,4,5],'name':['张三','李四','王二','丁一','赵五'],

                      'age':[27,24,25,23,25],'gender':['男','男','男','女','女']})

    df4 = pd.DataFrame({'Id':[1,2,2,4,4,4,5], 'score':[83,81,87,75,86,74,88]

                      'kemu':['科目1','科目1','科目2','科目1','科目2','科目3','科目1']})

    df5 = pd.DataFrame({'id':[1,3,5],'name':['张三','王二','赵五'],

                      'income':[13500,18000,15000]})

    # 三表的数据连接

    # 首先df3和df4连接

    merge1 = pd.merge(left = df3, right = df4, how = 'left', left_on='id', right_on='Id')

    merge1

    # 再将连接结果与df5连接

    merge2 = pd.merge(left = merge1, right = df5, how = 'left')

    merge2

    相关文章

      网友评论

          本文标题:Python | 快速入门Pandas模块(二)数据的查看、统计

          本文链接:https://www.haomeiwen.com/subject/qtvrxhtx.html