美文网首页
pandas玩转Excel及数据分析(一) 概述

pandas玩转Excel及数据分析(一) 概述

作者: 熊爸天下_56c7 | 来源:发表于2021-02-23 16:42 被阅读0次

    一. pandas简介

    1. 什么是pandas

    pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。
    Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。
    pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
    你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
    官方API文档: https://pandas.pydata.org/docs/reference/index.html

    2. 列表/numpy/pandas

    3. 为什么numpy/pandas比列表高效?

    列表在内存中的存储是不连续的, 而numpy/pandas中的数据在内存中是连续的

    二. pandas安装

    (1). 升级PIP

    python -m pip install --upgrade pip -i https://pypi.douban.com/simple --user
    

    (2). 安装pandas

    pip install --upgrade pandas -i https://pypi.douban.com/simple
    

    至此pandas安装完成, 我们写一个小例子:

    import pandas as pd
    
    s1 = pd.Series([100,23,'熊爸'])
    
    print(s1)
    

    运行结果:

    如果想操作excel还需要安装以下库:

    (3). xlrd : 读excel库

    pip install --upgrade xlrd -i https://pypi.douban.com/simple
    

    (4).openpyxl : 用于解决Excel(WPS等均可使用)中扩展名为xlsx/xlsm/xltx/xltm的文件读写的第三方库

    pip install --upgrade openpyxl -i https://pypi.douban.com/simple
    

    (5).Matplotlib : 绘制二维图像

    pip install --upgrade matplotlib -i https://pypi.douban.com/simple
    

    还有以下工具, 可以提高效率或生产力

    (6).pillow : 图像压缩工具

    pip install --upgrade pillow -i https://pypi.douban.com/simple
    

    (7). 安装 jupyter :实时运行,并更美观的输出结果

    pip install --upgrade jupyter -i https://pypi.douban.com/simple
    

    使用起来很简单,只需要点击绿色的运行按钮,结果就会在代码块底部运行并展示

    三. pandas中的两个数据结构: Series/DataFrame

    Series是一维数据
    DataFrame是二维数据, 每个DataFrame都由多个Series组成

    pandas中没有三维及以上的数据

    四. 创建Series对象的构造函数

    class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
    
    参数 说明
    data 包含存储在Series中的数据。如果数据是字典,则保持参数顺序。
    index index必须是可散列的,并且与data的长度相同。允许使用非唯一索引值。如果未提供,则默认为RangeIndex(0,1,2,…,n)。如果数据类似于dict并且索引为None,则数据中的键将用作索引。如果索引不为None,则使用索引值对所得Series系列重新索引。
    dtype 输出系列的数据类型。如果未指定,则将从data推断出来。
    name Series的名称
    copy
    fastpath

    例子(1) : 用列表创建

    import pandas as pd
    
    s1 = pd.Series([1,2,4],index = list("abc"),name = "列表创建的Series",dtype= "int32")
    
    print(s1)
    

    例子(2) : 用字典创建

    import pandas as pd
    
    dict1 = {"叮东":28,"淘跑":20,"唯饼会":25}
    s1 = pd.Series(dict1,name = "熊爸双11销量",dtype= "int32")
    
    print(s1)
    

    例子(3) : 用数值创建

    index决定了数据的长度

    import pandas as pd
    
    s1 = pd.Series(3.0,index= ["豆瓣评分","时光网评分","知乎评分"])
    
    print(s1)
    

    五. 创建DataFrame对象的构造函数

    一般我们创建DataFrame对象有三种方法:

    构造函数

    class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
    
    参数 说明
    data 包含存储在DataFrame中的数据。可以是:类数组,迭代器,字典 或DataFrame。
    index 用于结果帧的索引。如果没有输入数据的索引信息部分并且没有提供索引,则默认为RangeIndex。
    columns 用于结果框架的列标签。如果未提供列标签,则默认为RangeIndex(0,1,2,…,n)。
    dtype 强制的数据类型。仅允许单个dtype。如果没有,则推断。
    copy

    例子(1) : 用列表创建

    import pandas as pd
    
    list_2d = [
        [1, 2, 3],
        [4, 5, 6]
    ]
    
    s1 = pd.DataFrame(list_2d, columns=[
                      "豆瓣评分", "时光网评分", "猫眼评分"], index=["流浪地球", "唐人街探案"])
    
    print(s1)
    

    例子(2) : 用字典创建

    import pandas as pd
    
    dict_2d = {
      "豆瓣评分":[1,2],
      "时光网评分":[3,4], 
      "猫眼评分":[5,6]
    }
    
    s1 = pd.DataFrame(dict_2d, index=[
                      "流浪地球", "唐人街探案"])
    
    print(s1)
    

    读取excel表格创建DataFrame

    这里我们就要用到之前下载的xlrd和openpyxl
    读取时区分xls和xlsx,因为xlrd最新版反而不支持xlsx了😂😂😂,所以读取xlsx时要用openpyxl

    (1)读取xls

    import pandas as pd
    
    df1 = pd.read_excel("goods_base.xls")
    
    print(df1)
    

    (2)读取xlsx
    读取xlsx要规定好读取引擎

    import pandas as pd
    
    df1 = pd.read_excel("goods_base.xlsx",engine='openpyxl')
    
    print(df1)
    

    相关文章

      网友评论

          本文标题:pandas玩转Excel及数据分析(一) 概述

          本文链接:https://www.haomeiwen.com/subject/pfmrfltx.html