美文网首页power bi程序员
2019-12-16(二)对DataFrame数据记录进行的各种

2019-12-16(二)对DataFrame数据记录进行的各种

作者: 连词工 | 来源:发表于2019-12-19 00:15 被阅读0次

    '''

    上期回顾:

    利用Xlwings从Excel特定区域读入数据集到Pandas的DataFrame和Series。

    本次:

    我们将学习对DataFrame数据记录进行的各种选择!——选择前的初步和整体的了解

    '''

    '''

    我们因为太长的列,显示会有些难看,所以我们修改了一下“特点”和“计算机水平”,然后在Excel 中将第9条记录和第10条记录“复制-粘贴”一次,形成重复的数据,再把第5条记录的“工龄”清除,然后导入Dataframe中

    '''

     ##选中employee 所在的区域

    range_employee=sht_base[25,1].api.currentregion

    ##命名区域

    range_employee.name='range_employee'

    ##导入Dataframe

    df_employee=sht_base['range_employee'].options(pd.DataFrame, header=1,index=True).value

    #按F5运行程序,然后在IDE右下方的即时窗口In:后面输入:

    print(df_employee)

    #显示如下:

    #第五条记录:张五的年龄因为是数值(int,float)的数据类型,所以显示为:NaN,而其他数据类型空值则显示为None


    #*****

    Ps:

    小乐:哦我明白了!将数据从Excel引入到DataFrame,好比是相亲一样,Xlwings是媒人,她有许多办法和手段促成男女双方(Excel、DataFrame)见面、交流及至开花结果,成为相亲相爱的一家人,现在已经见面了,那就祝他们永结同心吧!

    小欣:等等!他们还没有互相了解,怎么就永结同心了呢,这不会是闪婚吧!

    小欣:至少也要让他们相互了解一下、交流一下吧!然后再进行选择,最终看是有情人终成眷属或者是等等再看,各回各家、各找各妈吧!

    小乐:也是哦,那了解就了解详细一点吧!性格属相(dtypes) 、家庭住址户口信息(info())、亲友评价(describe())、身高体重(shape)、与众不同的地方(unique())... ...

    小欣:丈母娘最关心什么啊?
    小乐:当然是以上各项综合得分了,其中房子、车子、票子是硬指标!(index)在人群中一眼就能让你与众不同

    小欣:人品能力... ...房子、车子、票子,最终要量化考核才行,不能泛泛而谈!

    小乐:那你说,要怎么办?

    小欣:做个KPI(columns),定性(str、bool...)定量(int、float)进行考核(values)!

    小乐:好吧,那这次就先不定婚吧,先详细了解一下!

    小欣:嗯嗯嗯,那还等什么!开始吧!

    #*****


    #查看一下各列的数据类型

    df_employee.dtypes

    #查看一下DataFrame的信息

    df_employee.info()

    #姓名列有12个 non-null (非空值),而“工龄”只有11个,“计算机水平”则更少了,只有4个

    #查看一下统计信息

    df_employee.describe()

    '''

    count  #数量 

    mean #均值

    std #标准差

    min  #最小值

    25%  #下四分位

    50% #中位数

    75%  #上四分位

    max  #最大值

    percentiles,这个参数可以设定数值型特征的统计量,默认是[.25, .5, .75],也就是返回25%,50%,75%数据量时的数字,但是这个可以修改的

    '''

    #我们只看到了数值类型的统计信息,如果要看到其他类型的则要加上参数 include=['O']

    '''

    可以看出它直接给出了非空数量 count;唯一值的种类 unique ,姓名虽然有12个,但有连词工和张9是重复的,所以姓名唯一值为10个;出现最多的类型 top 和出现次数 freq,简直是贴心。这对以后提特征绝对是个便利。

    '''

    #查看数据表的维度

    df_employee.shape

    #查看“特点”列中的唯一值

    df_employee['特点'].unique() 

    #或者

    df_employee.特点.unique() 

    #查看数据表的值

    df_employee.values

    #查看列名称

    df_employee.columns

    #查看索引

    df_employee.index

    #转换数据类型,从float转成int

    #以上只能显示的时候从float 变成 int,如果要改变原数据集的值,则要这样做

    #或者直接这样做

    #或者是,既有数字,又有字符的

    这时的index数据类型变成object

    #查看前6行数据

    df_employee.head(6)

    #查看前10行数据

    df_employee.head

    df_employee.head(10)

    #查看前5行数据

    df_employee.head()

    #查看最后6行,tail用法和head一样

    df_employee.tail(6)

    相关文章

      网友评论

        本文标题:2019-12-16(二)对DataFrame数据记录进行的各种

        本文链接:https://www.haomeiwen.com/subject/drqjnctx.html