Python 数据分析-matplotlib入门

作者: DayDayUpppppp | 来源:发表于2017-05-23 22:44 被阅读216次

    python在数据分析,科学计算方面有几个很重要的库,分别是pandas,numpy,matplotlib。

    刚刚开始接触,就把自己看的代码贴上来。

    demo1:使用matplotlib 画一个图
    import matplotlib.pyplot as plt
    
    #x,y 分别表示的是横坐标和纵坐标
    x = [2,3,4,5,6,7]
    y = [1,2,1,2,1,2]
    
    plt.plot(x,y)
    plt.show()
    
    image.png
    demo1-1 绘制散点图
    #绘制散点图
    x=[1,2,3,4,5]
    y=[4,5,6,7,8]
    plt.scatter(x,y,color='r')
    
    #添加标题,很坐标的解释,纵坐标的解释
    plt.title(" web traffic")
    plt.xlabel("time")
    plt.ylabel("hits/hours")
    #自动调整图像显示
    #plt.autoscale(tight=True)
    plt.show()
    
    2017-06-01 22-50-52屏幕截图.png

    绘图的时候一个很重要的技能就是,给画出来的图或者是点加上颜色的属性。实现方式,如下:

    plt.scatter(x,y,color='r')
    

    散点图 + 加上label
    如果有10个点,他们分别分成3类,把他们画出来,每个类别是不同的颜色。

    import matplotlib.pyplot as plt 
    
    
    x=range(0,10)
    y=[ 2*(i**2) for i in x] 
    
    print (x)
    print (y)
    
    # 假设这些点 分成三类0~2
    # 下面是10个点分别对应的类型
    label=[0,0,1,1,1,0,1,2,2,0]
    
    plt.scatter(x,y,c=label)
    plt.show()
    
    image.png image.png

    另外一个例子

    使用plt.figure定义一个图像窗口:编号为3;大小为(8, 5). 使用plt.plot画(x ,y2)曲线. 使用plt.plot画(x ,y1)曲线,曲线的颜色属性(color)为红色;曲线的宽度(linewidth)为1.0;曲线的类型(linestyle)为虚线. 使用plt.show显示图像.

    plt.figure(num=3, figsize=(8, 5),)
    plt.plot(x, y2)
    plt.plot(x, y1, color='red', linewidth=1.0, linestyle='--')
    plt.show()
    

    指定图的大小

    plt.figure(figsize=(10, 5))  #指定比例
    

    dpi表示的是像素,dpi越大,图越大。

    设置图例

    # set line syles
    l1, = plt.plot(x, y1, label='linear line')
    l2, = plt.plot(x, y2, color='red', linewidth=1.0, linestyle='--', label='square line')  #下面这一行很重要,没有的话,就没有label
    # 参数 loc='upper right' 表示图例将添加在图中的右上角.
    plt.legend(loc='upper right')
    

    画子图
    表示将整个图像窗口分为2行2列, 当前位置为1 ; plt.subplot(2,2,1)

    
    import matplotlib.pyplot as plt 
    plt.figure()
    
    #表示将整个图像窗口分为2行2列, 当前位置为1. 
    # 也可以简写成为 plt.subplot(221)
    plt.subplot(2,2,1)  
    plt.plot([0,1],[1,1])
    
    plt.subplot(2,2,2)  
    plt.plot([0,1],[2,2])
    
    plt.subplot(2,2,3)  
    plt.plot([0,1],[3,3])
    
    plt.subplot(2,2,4)  
    plt.plot([0,1],[4,4])
    plt.show()
    
    """
    
    import matplotlib.pyplot as plt 
    plt.figure()
    # 另一种写法
    ax1 = plt.subplot(2,2,1)  
    ax2 = plt.subplot(2,2,2)  
    ax3 =plt.subplot(2,2,3)  
    ax4 =plt.subplot(2,2,4)  
    
    ax1.plot([0,1],[1,1])
    ax2.plot([0,1],[2,2])
    ax3.plot([0,1],[3,3])
    ax4.plot([0,1],[4,4])
    
    plt.show()
    """
    
    image.png
    demo1-2 拟合数据

    一般来说,原始数据都是单个的点,大致上服从某种分布,numpy提供了拟合数据的函数,可以很方便的拟合好相应的数据。对于开发者来说,只需要选择拟合的函数,比如说使用一次函数来拟合,使用字数函数,使用泊松分布的函数来拟合等等。

    x=[1,2,3,4,5,6,7,8,9,10]
    def func(val):
        return val**2+np.random.normal()
    
    #这里只是写法不同,y2,y3是相同的
    #目的是产生符合y=x*x的数据
    y2=[func(xi) for xi in x ]
    y3=[func(x[i]) for i in range(10)]
    
    plt.scatter(x,y2,color='r')
    
    #多项式拟合
    fp2=np.polyfit(x,y2,2)
    fy=np.poly1d(fp2)
    #f2 就是拟合的函数
    print (fy)
    
    #显示在图片上面,fx表示x的取值范围
    fx=np.linspace(0,x[-1],100)
    plt.plot(fx,fy(fx),color='g')
    
    plt.show()
    
    2017-06-01 22-59-19屏幕截图.png
    改变横纵坐标的比例
    In [14]: x=range(0,100)
    In [15]: y=np.sin(x)
    In [20]: plt.plot(x,y)
    Out[20]: [<matplotlib.lines.Line2D at 0x2dfc53c8c50>]
    In [21]: plt.show()
    

    如果想让自定义横坐标刻度,那么可以按照如下的方式:

    In [23]: new_tick=[0,20,40,60,80,100]
    
    In [24]: plt.xticks(new_tick)
    Out[24]:
    ([<matplotlib.axis.XTick at 0x2dfc3105710>,
      <matplotlib.axis.XTick at 0x2dfc3100e80>,
      <matplotlib.axis.XTick at 0x2dfc31114e0>,
      <matplotlib.axis.XTick at 0x2dfc3283d30>,
      <matplotlib.axis.XTick at 0x2dfc3289588>,
      <matplotlib.axis.XTick at 0x2dfc3289da0>],
     <a list of 6 Text xticklabel objects>)
    
    In [25]: plt.plot(x,y)
    Out[25]: [<matplotlib.lines.Line2D at 0x2dfc329b5f8>]
    
    In [26]: plt.show()
    
    # 参考:
    # https://morvanzhou.github.io/tutorials/data-manipulation/plt/2-3-axis1/
    
    demo 1-3 :绘制动图

    这个也是一个很有用的功能,比如说希望一个点一个点的出现在图片上,而不是一次性的出现一个绘制好了的结果。

    #动态画图
    #axis 指明了坐标轴的范围
    plt.axis([0,20,0,20])
    
    #打开交互模式,显示图片的时候,不再阻塞程序运行
    plt.ion()
    for i in range(100):
        y=np.random.random()
        plt.autoscale()
        plt.scatter(i,y)
        plt.pause(0.01)
    

    运行结果:

    5201633-1735a7611557f001.gif
    demo2:使用pandas 读取excel文件

    前几天在处理数据的时候,遇到这个问题。问题是:有一个excel文件,里面存放的是某一个路口每分钟通过的车流量。


    image.png

    现在要分析的是,车流量(vol)和时间的关系是什么?

    import pandas as pd
    #import numpy as np
    import matplotlib.pyplot as plt
    
    path="1.xls"
    df=pd.read_excel(path)
    #print (df.head())
    #print (df['speed'])
    #print (df['vol'])
    
    #plt.plot(df['time'],df['vol'])
    plt.plot(df['time'],df['vol'],'.')
    plt.show()
    
    """ # 测试代码 
    print (df['speed'][1])
    print (type(df['speed'][1]))
    print (type (df['vol'][1]))
    x=[]
    y=[]
    for i in range(0,10):
        x.append(df['vol'][i])
        y.append(df['speed'][i])
    plt.plot(x,y)
    plt.show()
    """
    

    运行结果:

    2017-05-24 09-17-43屏幕截图.png

    车流量基本上服从泊松分布。
    源码:https://github.com/zhaozhengcoder/Python/tree/master/Data%20analysis

    相关文章

      网友评论

        本文标题:Python 数据分析-matplotlib入门

        本文链接:https://www.haomeiwen.com/subject/yeogxxtx.html