美文网首页大数据程序员
Pandas系列1-DataFrame之初始化

Pandas系列1-DataFrame之初始化

作者: geekpy | 来源:发表于2018-06-08 21:25 被阅读46次

    DataFrame有多种初始化方法,主要分为以下几种情况:

    • 通过Object初始化
    • 通过文件初始化
    • 通过SQL查询结果初始化
    • 通过NoSQL数据库查询结果初始化

    下面分别介绍:

    通过object初始化

    这又分为以下几种方式

    • Dict of 1D ndarrays, lists, dicts, or Series
    • 2-D numpy.ndarray
    • Structured or record ndarray
    • A Series
    • Another DataFrame

    通过list

    通过1D data series初始化的时候,如果有多列,那么需要等长

    # columns参数是通过一个list参数来指定column labels
    df = pd.DataFrame([['a1', 1], ['a2', 4]], columns=['uid', 'score'])
    In [477]: df
    Out[477]:
      uid  score
    0  a1      1
    1  a2      4
    

    通过Dict of 1D ndarray

    In [298]: df = pd.DataFrame({'col1': np.arange(3), 'col2': np.arange(5, 8)})
    
    In [299]: df
    Out[299]:
       col1  col2
    0     0     5
    1     1     6
    2     2     7
    

    通过Dict of lists

    In [294]: df = pd.DataFrame({'col1': [1, 2, 3, 4], 'col2': ['a', 'b', 'c', 'd']})
    
    In [295]: df
    Out[295]:
       col1 col2
    0     1    a
    1     2    b
    2     3    c
    3     4    d
    

    通过list of dicts

    注意与上边的dict of lists区分,如果最外层是dict,那么key值默认是column label。
    而在list of dicts中,每个dict都是一个record,或者说一行

    # 可以不等长,缺失值自动设为NaN
    In [49]: data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
    
    In [50]: pd.DataFrame(data2)
    Out[50]: 
       a   b     c
    0  1   2   NaN
    1  5  10  20.0
    
    In [51]: pd.DataFrame(data2, index=['first', 'second'])
    Out[51]: 
            a   b     c
    first   1   2   NaN
    second  5  10  20.0
    
    In [52]: pd.DataFrame(data2, columns=['a', 'b'])
    Out[52]: 
       a   b
    0  1   2
    1  5  10
    

    通过Dict of Series

    In [314]: s = pd.Series(range(5))
    
    In [315]: s
    Out[315]:
    0    0
    1    1
    2    2
    3    3
    4    4
    dtype: int64
    
    In [316]: p = pd.Series(range(8, 13))
    
    In [317]: p
    Out[317]:
    0     8
    1     9
    2    10
    3    11
    4    12
    dtype: int64
    
    In [318]: df = pd.DataFrame({'a': s, 'b': p})
    
    In [319]: df
    Out[319]:
       a   b
    0  0   8
    1  1   9
    2  2  10
    3  3  11
    4  4  12
    

    通过2-D numpy.ndarray

    In [289]: df = pd.DataFrame(np.arange(16).reshape((4,4)), columns=['one', 'two', 'three',
         ...:  'four'], index=['a', 'b', 'c','d'])
    
    In [290]: df
    Out[290]:
       one  two  three  four
    a    0    1      2     3
    b    4    5      6     7
    c    8    9     10    11
    d   12   13     14    15
    

    通过文件初始化

    pandas通过各种数据文件也可以初始化,比如csv文件,excel文件,json文件,html文件等,详见下图


    IO Tools

    下面以read_csv详细解释下读取csv文件以及初始化的过程
    read_csv的完整文档参考read_csv api,下面通过示例对常用的parameter进行解释:

    csv_path = "./test.csv"
    columns = ['id', 'name', 'age']
    dtype = {'id': int, 'name': object, 'age': int}
    pd.read_csv(csv_path, header=None, names=columns, dtype=dtype)
    
    • filepath_or_buffer, 这个是最基本的参数,用以指明文件的路径(路径可以是字符串,也可以是各种path对象,详见文档)或者文件对象(也可以接收类文件对象, 即提供read method, 如StringIO对象)。另外,这个参数也可以是一个URL,而这个URL可以http, ftp, 或者s3的url.

    对于没有权限限制的url,直接使用read_csv可以大大简化代码,但是通过我们的数据不会放置到公开的url地址上,因此这就涉及权限的问题,通常还是通过其它手段将文件下载到本地后再读取。

    • header, 这个参数用于设置第几行为column names, 默认是'infer',即Pandas会自动推断哪一行是column names。当文件中没有column names时,相当于设定header=0。很多时候想要忽略原始的column names而自己设定column names,那么可以将这个参数设置为None, 然后通过names参数来设定column names
    • names, 用于设定column names
    • dtype, 用于设定每一列对应的数据类型,需要注意的是对string类型需要设置为object
    • nrows, 要读取多少行,通过这个参数我们可以部分读取文件
    • usecols, 用于选定列,即指定哪些列load进DataFrame中,通过这个参数可以只读取我们需要的数据,从而减少内存占用,加快load速度。

    通过SQL查询结果初始化

    import pandas.io.sql as sql
    
    # conn是数据库的连接对象
    sql.read_frame('select * from test', conn)
    

    NoSQL查询结果初始化

    这里以MongoDB为例

    # 从MongoDB中查询年龄大于20岁的用户,查询返回一个cursor对象
    user_results = user.find({"age": {"$gt": 20}})
    
    # 将cursor对象转化为list,然后初始化
    # columns可以用于选取相应的field的数据,只有在这个列表中的field才会被load进DataFrame对象当中,如果没有对应的数据,会被填入NaN
    df = pd.DataFrame(list(user_results), columns=['id', 'age', 'name']
    

    References

    相关文章

      网友评论

      • 知识学者:series 好像是行,或者列,-DataFrame 是一个表,panads是一个excel。

      本文标题:Pandas系列1-DataFrame之初始化

      本文链接:https://www.haomeiwen.com/subject/qwhzsftx.html