美文网首页Python数据挖掘学习我爱编程
pandas学习(一)——数据的导入和导出

pandas学习(一)——数据的导入和导出

作者: 骑着炮弹进城 | 来源:发表于2017-04-25 22:07 被阅读6405次

    要学数据挖掘与分析第一步当然是要导入数据到程序当中或者从程序中导出数据到本地文件当中,这里我使用pandas库提供的函数来举例导入和导出数据。本文所用的环境:python :3.5 pandas:0.19.2 numpy:1.12.1,sqlalchemy 1.1.9 如果你的环境和这样不一样可能会有 细微差别。

    pandas支持的数据格式

    pandas作为一个强大的数据处理包,支持比较多的数据处理格式,下面是一些常见格式数据的读取方法,更多请参考:链接

    函数 描述
    read_table(filepath_or_buffer[, sep, ...]) 读取普通分隔的数据
    read_csv(filepath_or_buffer[, sep, ...]) 读取csv格式的数据
    read_excel(io[, sheetname, header, ...]) 读取excel格式的数据
    read_json([path_or_buf, orient, typ, dtype, ...]) 读取json格式的数据
    read_html(io[, match, flavor, header, ...]) 读取html格式的 数据
    read_sql(sql, con[, index_col, ...]) 读取数据库中的数据

    前面两个一般用的比较多。

    常见格式读取示例

    read_table举例

    example.csv是一个用逗号隔开的数据格式。所以可以用read_table读取,需要指定间隔符为逗号。

    import pandas as pd
    data_csv = pd.read_table('example.csv',sep=',')
    print("data_csv:")
    print(data_csv)
    
    
       a   b   c   d message
    0  1   2   3   4   hello
    1  5   6   7   8   world
    2  9  10  11  12     foo
    

    但是有时隔符是不定个数的空格,这时可以用正则表达式。

    import pandas as pd
    data_txt = pd.read_table('example.txt',sep='\s+')
    print("data_txt:")
    print(data_txt)
    

    此处由于数据中列名比数据列少1,read_table会推断第一行为列名。

     A         B         C
    aaa -0.264438 -1.026059 -0.619500
    bbb  0.927272  0.302904 -0.032399
    ccc -0.264273 -0.386314 -0.217601
    ddd -0.871858 -0.348382  1.100491
    
    

    read_csv举例

    import pandas as pd
    data_csv2 = pd.read_csv('example.csv')
    print("data_csv2:")
    print(data_csv2)
    
       a   b   c   d message
    0  1   2   3   4   hello
    1  5   6   7   8   world
    2  9  10  11  12     foo
    

    read_exel示例

    import pandas as pd
    data_xlsx = pd.read_excel('example.xlsx')
    print("data_xlsx:")
    print(data_xlsx)
    

    默认是读取第一个 sheet表格的,如果要制定读取sheet表格则需要指定 sheetname参数

    data_xlsx2 = pd.read_excel('example.xlsx',sheetname="Sheet2")
    print("data_xlsx2:")
    print(data_xlsx2)
    
        a   b   c   d message
    0  11  12  13   4   hello
    1  15  16  17  18   world
    2  19  20  21  12     foo
    

    更多参数可以参考官方手册

    read_json示例

    data_json = pd.read_json('example.json')
    print(data_json)
    

    直接打开json文件的内容如下:

    [{"a": 1, "b": 2, "c": 3},
     {"a": 4, "b": 5, "c": 6},
     {"a": 7, "b": 8, "c": 9}]
    

    读取后 输出的格式如下

       a  b  c
    0  1  2  3
    1  4  5  6
    2  7  8  9
    

    read_sql、read_sql_table和read_sql_query示例

    import pymysql
    import pandas as pd
    
    con = pymysql.connect(host="127.0.0.1",user="root",password="password",db="world")
    data_sql=pd.read_sql("select * from city limit 10",con)
    print(data_sql)
    

    数据库用的是mysql,数据是里面自带的测试数据。

       ID            Name CountryCode       District  Population
    0   1           Kabul         AFG          Kabol     1780000
    1   2        Qandahar         AFG       Qandahar      237500
    2   3           Herat         AFG          Herat      186800
    3   4  Mazar-e-Sharif         AFG          Balkh      127800
    4   5       Amsterdam         NLD  Noord-Holland      731200
    

    在使用read_sql_table和read_sql_query时需要使用sqlalchemy对数据库进行连接。这里仍然使用mysql为例,其他数据库的链接方式有细微差别。

    import pandas as pd
    import pymysql
    from sqlalchemy import create_engine
    
    con = create_engine('mysql+pymysql://root:password@localhost:3306/world')
    data_sql2 = pd.read_sql_table("city", con)
    print(data_sql2)
    
    data_sql3 = pd.read_sql_query("select * from city limit 5", con)
    print(data_sql3)
    

    本文示例代码和文件下载地址:链接
    提取密码:4koh

    相关文章

      网友评论

        本文标题:pandas学习(一)——数据的导入和导出

        本文链接:https://www.haomeiwen.com/subject/gmsbzttx.html