matplotlib数据可视化分析

    # matplotlib 数据可视化分析
    from matplotlib import pylab
    import numpy
    # 下面2行定义X轴，Y轴
    x=[1,2,3,4,8]
    y=[1,2,3,4,8]
    plot的方法是这样使用（x轴数据,y轴数据,展现形式）
    pylab.plot(x,y)   # 先把x,y轴的信息塞入pylab里面，再调用show方法来画图
    pylab.show()    # 这一步开始画图,默认是至线图
    
    pylab.plot(x,y,'or')   # 添加O表示画散点图，r表示red
    pylab.show()
    
    pylab.plot(x,y,'r:')   #虚线图
    pylab.show()
    
    pylab.plot(x,y,'pr--')   #p是图形为五角星，r为红色，--表示虚线
    pylab.title('for learnning')   # 图形标题
    pylab.xlabel('args')   # x轴标签
    pylab.ylabel('salary')   # y轴标签
    pylab.xlim(2)    # 从y轴的2开始做线
    pylab.show()
    
    '''
    关于图形类型，有下面几种：
    1.直线图（默认）
    2.- 直线
    3.-- 虚线
    4.-. -.形式
    5.: 细小虚线
    
    关于颜色，有下面几种：
    1.c-青色
    2.r-红色
    3.m-品红
    4.g-绿色
    5.b-蓝色
    6.y-黄色
    7.k-黑色
    8.w-白色
    
    关于形状，有下面几种：
    1.s 方形
    2.* 星形
    3.p 五角形
    
    '''

直方图

    # 直方图
    from matplotlib import pylab
    import numpy
    data1 = numpy.random.normal(5.0,4.0,10)   # 正态随机数
    pylab.hist(data1)
    pylab.show()
    
    '''
    Y轴为出现的次数，X轴为这个数的值（或者是范围）
    
    还可以指定直方图类型通过histtype参数：
    
    图形区别语言无法描述很详细，大家可以自信尝试。
    1.bar ：is a traditional bar-type histogram. If multiple data
     are given the bars are aranged side by side.
     (1.bar:是传统的条形柱状图。)
    2.barstacked ：is a bar-type histogram where multiple
     data are stacked on top of each other.
     (2.barstacked:一个多个条形柱状图数据堆叠在一起。)
    3.step ：generates a lineplot that is by default
     unfilled.
     (3.step:内部不填充。)
    4.stepfilled ：generates a lineplot that is by default
     filled.
     （4.stepfilled:内部填充。）
    '''
    # 举个例子：
    sty=numpy.arange(1,30,2)
    pylab.hist(data1,histtype='barstacked')
    pylab.show()

子图功能

什么是子图功能呢？子图就是在一个大的画板里面能够显示多张小图，每个一小图为大画板的子图。
我们知道生成一个图是使用plot功能，子图就是subplog。代码操作如下：

    from matplotlib import pylab
    pylab.subplot(2,2,1)   # 申明一个大图里面划分成4块（即2*2），子图使用第一个区域（坐标为x=1,y=1）
    pylab.subplot(2,2,2)  # 申明一个大图里面划分成4块（即2*2），子图使用第二个区域（坐标为x=2,y=2）
    x1=[1,4,6,9]
    x2=[3,21,33,43]
    pylab.plot(x1,x2)   # 这个plot表示把x,y轴数据塞入前一个子图中。我们可以在每一个子图后使用plot来塞入x,y轴的数据
    pylab.subplot(2,1,2)  # 申明一个大图里面划分成2块（即），子图使用第二个区域（坐标为x=1,y=2）
    pylab.show()

实践小例子

我们现在可以通过一堆数据来绘图，根据图能够很容易的发现异常。下面我们就通过一个csv文件来实践下，这个csv文件是某个网站的文章阅读数与评论数。
先说说这个csv的文件结构，第一列是序号，第二列是每篇文章的URL，第三列每篇文章的阅读数，第四列是每篇评论数。
我们的需求就是把评论数作为Y轴，阅读数作为X轴，所以我们需要获取第三列和第四列的数据。我们知道获取数据的方法是通过pandas的values方法来获取某一行的值，在对这一行的值做切片处理，获取下标为3（阅读数）和4（评论数）的值，但是，这里只是一行的值，我们需要是这个csv文件下的所有评论数和阅读数，那怎么办？聪明的你会说，我自定义2个列表，我遍历下这个csv文件，把阅读数和评论数分别添加到对应的列表里，这不就行了嘛。呵呵，其实有一个更快捷的方法，那么就是使用T转置方法，这样再通过values方法，就能直接获取这一评论数和阅读数了，此时在交给你matplotlib里的pylab方法来作图，那么就OK了。了解思路后，那么就写吧。

代码

    csv_data = pandas.read_csv('F:\Learnning\CSDN-python大数据\hexun.csv')
    dt = csv_data.T   # 装置下，把阅读数和评论数转为行
    readers=dt.values[3]   
    comments = dt.values[4]
    pylab.xlabel(u'reads')
    pylab.ylabel(u'comments')   # 打上标签
    pylab.title(u"The Article's reads and comments")
    pylab.plot(readers,comments,'ob')
    pylab.show()