美文网首页
pandas的一些知识及函数

pandas的一些知识及函数

作者: 学习是什么能吃吗 | 来源:发表于2019-02-23 19:33 被阅读0次

    读取,输出数据集:

    import pandas

    myData = pandas.read_csv("E:\Anaconda\Salary_Data.csv")    #myData类型为DataFrame类型

    print (myData.dtypes)

    print (type(myData))

    print (myData)

    结果

    myData的类型为DataFrame(可以看作是矩阵),读取的数据中有常见的3种类型int , float 和object(String)。

    print (salary_Data.head(4) )      #输出salary_Data的前4条数据,默认5条

    print (salary_Data.tail(4))        #输出尾部4条

    print (salary_Data.columns)     #输出每个feature的名字

    print (salary_Data.shape)       #输出数据的行列

    结果

    从数据集提取数据:

    按行取:

    print (salary_Data.loc[1])       #输出index为1的数据

    print (salary_Data.loc[0:3])     #输出index为0到3(包括3)的数据

    print (salary_Data.loc[[0,4]])   #输出index为0和4的数据

    结果

    按列取:

    print (salary_Data["Salary"]    #输出特征为Salary列的值

    print (salary_Data["Salary"].loc[0:3])     #取出Salary列的index为0到3的值

    按要求取:

    可以使用salary_Data.columns.tolist()将所有column转换成一个list再使用for循环遍历list挑选出符合条件的数据。

    结果

    向已有的数据中加入新的列:

    print (salary_Data.shape)

    salary2 = salary_Data["Salary"] / 10      #salary2的行数与Salary行数一致

    salary_Data["Salary2"] = salary2      #将salary2加入到新建的Salary2列中

    print (salary_Data.head(2))

    print (salary_Data.shape)

    结果

    获取某列一列的最值:

    print salary_Data.head(5)

    print salary_Data["Salary"].min()      #获取Salary列中的最小值

    结果

    使用apply()函数调用自定义函数:

    titanic数据集

    import pandas as pd

    titanic = pd.read_csv("E:/Anaconda/MachineLearningData/Titanic/test.csv")

    def hundred_row(column):     #自定义的函数用来输出参数的第100行的数据

        hendredth_data = column.loc[99]

        return hendredth_data

    hundred_value = titanic.apply(hundred_row)    #使用apply来调用自定义函数

    print hundred_value

    结果

    def class_level(value):

        p_class = value["Pclass"]

        if pd.isnull(p_class):

            return "Unknown"

        elif p_class == 1:

            return "1 LEVEL"

        elif p_class == 2:

            return "2 LEVEL"

        elif p_class == 3:

            return "3 LEVEL"

    class_level = titanic.apply(class_level,axis=1)      #axis=0 竖着算(结果显示column),1横着算(结果显示index)

    print class_level

    结果

    相关文章

      网友评论

          本文标题:pandas的一些知识及函数

          本文链接:https://www.haomeiwen.com/subject/prgpyqtx.html