美文网首页
2018-12-10

2018-12-10

作者: 透明的红萝卜123 | 来源:发表于2018-12-10 20:03 被阅读0次

    2018.12.9

    #面对一个10G的大文件,nrows =4000表示读取前4000条数据,
    df = pd.read_csv('sample_train/common_features_train.csv',nrows =4000,header = None)
    

    header:表头,默认不为空(为 0,也即将第一行视为表头)。如果我们要读取的文件,直接就是数据,没有所谓的表头。就需指定 header=None,否则将以文件的第一行作为 df.columns。指定 header=None,df.columns 返回的是列索引,如一个三列的数据:
    Int64Index([0, 1, 2], dtype='int64')

    背景

    import pandas as pd
    import numpy as np
    df = pd.DataFrame(data=np.random.randint(low=1,high=4,size=(2,3)), columns=["a","b","c"])
    

    选取某一列元素

    得到的是一个series对象

    依据属性名选择
    acol = df[‘a’] #选择a属性列,返回的是Series类型
    acol = df[[‘a’]] #选择a属性列,返回的是dataframe类型
    columnName = atoll.name
    #根据(名称)列名为2,第i个元素,可以理解为2列i行
    feature_list = df[2][i].split('\x01')
    
    依据下标选择
    
    选择多列元素
    abcol = df[[‘a’,’b’]]
    abcol = df.loc[:,[‘a’,’b’]]
    data.loc['a',['w','x']] #返回‘a’行'w'、'x'列,这种用于选取行索引列索引已知
    利用下标
    acol = df.iloc[:,0]
    Abcol = df.iloc[:,[0,1]]
    Abcol = df.iloc[:,[0:1]]
    

    选择某行元素

    r1 = df[0:1]
    选择满足条件的那些行
    Condition1 = df[‘a’]==1
    Condition2 = df[‘b']>=2
    Condition3 = condition1 & condition2
    Subdf = df[condition1]
    Subdf = df[condition3]
    

    相关文章

      网友评论

          本文标题:2018-12-10

          本文链接:https://www.haomeiwen.com/subject/ylidhqtx.html