美文网首页我爱编程
mooc网python数据分析与展示

mooc网python数据分析与展示

作者: Cherryjs | 来源:发表于2017-05-31 16:40 被阅读0次

    mooc网python数据分析与展示

    1.conda,spyder,ipython
    2.对于创建后的ndarray数组,可以对其进行维度变换和元素类型变换。
    a=np.ones((2,3,4),dtype=np.int32)
    3.reshape(shape)不改变数组元素,返回一个shape形状的数组,原数组不变
    .resize(shape)与reshape功能一致,但修改原数组
    .swapaxes(ax1,ax2)对数组n个维度中两个维度进行调换
    .flatten(),降维,不改变原数组.
    4.new_a=a.astype(new_type)
    astype会创建新数组
    5.ls=a.tolist()数组向列表的转换。
    6.np.rint(x)计算数组各元素的四舍五入值
    np.modf(x)将数组各元素的小数和整数部分分别返回
    np.sign(x)计算数组各元素的符号值
    np.tanh(x)双曲型三角函数。
    np.copysigh(x,y)将数组y中各个元素值的符号赋值给数组x对应元素。
    np.savetxt(frame,array,fmt='%.18e',delimiter=None)
    np.loadtxt(frame,dtype=np.float,delimiter=None,unpack=False)
    csv只能存取一维和二维数组。
    7.a.tofile(frame,sep='',format='%s')
    frame:文件,字符串.

    sep:数据分割字符串,空串写入文件为二进制
    format:写入数据的格式
    np.fromfile(frame,dtype=float,count=-1,sep='')
    count-1是读入整个文件
    8.np.save(fname,array) 扩展名为.NPY
    np.savez(fname,array) 扩展名为.npz
    np.load(fname)
    与其他程序进行交流的话不适合用这种方式
    9.numpy库的随机函数
    np.random.randint(100,200,(3,4))
    shuffle(a)根据数组a的第1轴进行随机排列,改变数组x
    permutation(a)不改变数组x
    choice(a[,size,replace,p])从一维数组a中以概率p抽取元素,形成size形状新数组replace表示是否可以重用元素,默认为false
    np.random.choice(b,(3,2),replace=False)
    np.random.choice(b,(3,2),p=b/np.sum(b))
    10.uniform(low,high,size)均匀分布,起始结束
    normal(loc,scale,size)正态分布,均值,标准差
    poisson(lam,size)泊松分布 随机率
    11.sum(a,axis=None)
    mean(a,axis=None)
    average(a,axis=None,weight=None)期望 权重
    std(a,axis=None)标准差
    var(a,axis=None)方差
    12.min(a),max(a),argmin(a),argmax(a),unravel_index(index,shape)根据shape将一维下标index转换成多维下标,ptp(a)计算数组a中元素最大值与最小值的差,median(a)计算数组a元素的中位数。
    13.np.gradient(f)计算数组f中元素的梯度,当f为多维时,返回每个维度梯度。
    14.一二维数据可以用csv文件,np.loadtxt(),np.savetxt()
    多维数据存取,a.tofile(),np.fromfilr(),np.save(),np.savez(),np.load().
    15.np.random.rand(),np.random.randn(),np.random.randint(),np.random.seed(),np.random.shuffle(),np.random.permutation(),np.random.choice()
    Matplotlib库入门
    1.pyplot绘图区域
    plt.subplot(nrows,ncols,plot_number).
    2.plt.plot(x,y,format_string,kwargs)
    format_string:控制曲线的格式字符串,多选
    kwargs:可以下一条曲线
    3.format_string 颜色,标记,风格
    c 青绿色 m 洋红色
    '.'点标记,','像素标记极小点,'o'实心圈,'v'倒三角,'^','>'右三角,'<','1'下花三角,'2'上花三角,'3'左花,'4'右花,'s'实心方形,'p'实心五角,'
    ','h'竖六边形,'H'横六边形,'+'十字标记,'x'x标记,'D'菱形标记,'d'瘦菱形,'|'垂直线。
    '-','--','-.',':',''
    plt.plot(a,a
    1.5,'go-')
    4.plt.plot(x,y,format_string,
    kwargs)
    format_string:color linestyle,marker,markerfacecolor,markersize
    5.pyplot的中文显示

    import matplotlib.pyplot as plt
    import matplotlib
    
    matplotlib.rcParams['font.family']='SimHei'
    plt.plot([3,1,4,5,2])
    plt.ylabel("纵轴(值)")
    plt.savefig('test',dpi=600)
    plt.show()
    

    6.font.family,font.style,font.size。
    7.rcParams['font.family']
    SimHei 中文黑体,Kaiti中文楷体,LiSu中文隶书,FangSong仿宋,YouYuan,STSong华文宋体
    8.pyplot的中文显示:第二种方法,在有中文输出的地方,增加一个属性:fontproperties。
    9.pyplot的文本显示:plt.xlable(),plt.ylable(),plt.title()整体增加文本标签plt.text()对任意位置增加文本,plt.annotate()在图形中增加带箭头的注解.

    import numpy as np
    import matplotlib.pyplot as plt
    
    a=np.arange(0.0,5.0,0.02)
    plt.plot(a,np.cos(2*np.pi*a),'r--')
    
    plt.xlabel('横轴:时间',fontproperties='SimHei',fontsize=15,color='green')
    plt.ylabel('纵轴:振幅',fontproperties='SimHei',fontsize=15)
    plt.title(r'正弦波实例$y=cos(2\pi x)$',fontproperties='SimHei',fontsize=25)
    plt.text(2,1,r'$\mu=100$',fontsize=15)
    
    plt.axis([-1,6,-2, 2])
    plt.grid(True)
    plt.show()
    

    10.plt.annotate(s,xy=arrow_crd,xytext=text_crd,arrowprops=dict)
    增加注释,xy对应箭头所在位置,xytext文本显示的位置,arrowprops字典类型对应箭头属性、

    plt.annotate(r'$\mu-100$',xy=(2,1),xytext=(3,1.5),arrowprops=dict(facecolor='black',shrink=0.1,width=2))
    

    11.plt子绘制区域的设置
    plt.subplot2grid()
    plt.subplot2grid(GridSpec,CurSpec,colspan=1,rowspan=1)理念:设定网络,选中网络,确定选中行列区域数量,编号从0开始。设定几行几列,从几行几列开始,在列/行的方向上延伸
    plt.subplot2grid((3,3),(1,0),colspan=2)。由上到下012由左到右012。
    或者用GridSpec类

    import matplotlib.gridspec as gridspec
    gs=gridspec.GridSpec(3,3)
    ax1=plt.subplot(gs[0,:])
    ax2=plt.subplot(gs[1,:-1])
    ax3=plt.subplot(gs[1:,-1])
    ax4=plt.subplot(gs[2,0])
    

    matplotlib基础绘图函数示例
    1.plt.plot(x,y,fmt) 坐标图
    plt.boxplot(data,notch,position)箱型图
    plt.bar(left,height,width,bottom)条形图
    plt.barh(width,bottom,left,height)横向条形
    plt.polar(theta,r)极坐标图
    plt.pie(data,explode)饼图
    plt.psd(x,NFFT=256,pad_to,Fs)绘制功率谱密度图
    plt.specgram(x,NFFT=256,pad_to,F)谱图
    plt.cohere(x,y,NFFT=256,Fs)x-y相关性
    plt.scatter(x,y)散点
    plt.step(x,y,where)步阶图
    plt.hist(x,bins,normed)直方图
    plt.contour(X,Y,Z,N)绘制等值图
    plt.vlines()绘制垂直图
    plt.stem(x,y,linefmt,markerfmt)绘制柴火图
    plt.plot_date()绘制数据日期

    饼图

    import matplotlib.pyplot as plt
    
    labels='Frogs','Hogs','Dogs','Logs'
    sizes=[15,30,45,10]
    explode=(0,0.1,0,0)
    
    plt.pie(sizes,explode=explode,labels=labels,autopct='%1.1f%%',shadow=False,startangle=90
            )
    plt.axis('equal')
    plt.show()
    

    直方图

    import numpy as np
    import matplotlib.pyplot as plt
    
    np.random.seed(0)
    mu,sigma=100,20  #均值和标准差
    a=np.random.normal(mu,sigma,size=100)
    
    plt.hist(a,20,normed=1,histtype='stepfilled',facecolor='b',alpha=0.75)
    plt.title('Histogram')
    plt.show()
    

    normed=0是个数,normed=1是概率

    极坐标

    import numpy as np
    import matplotlib.pyplot as plt
    
    N=20
    theta=np.linspace(0.0,2*np.pi,N,endpoint=False)
    radii=10*np.random.rand(N)
    width=np.pi/4*np.random.rand(N)
    
    ax=plt.subplot(111,projection='polar')
    bars=ax.bar(theta,radii,width=width,bottom=0.0)
    
    for r,bar in zip(radii,bars):
        bar.set_facecolor(plt.cm.viridis(r/10.))
        bar.set_alpha(0.5)
    
    plt.show()
    

    散点图

    import numpy as np
    import matplotlib.pyplot as plt
    
    fig,ax=plt.subplots()
    ax.plot(10*np.random.randn(100),10*np.random.randn(100),'o')
    ax.set_title('Simple Scatter')
    
    plt.show()
    

    引力波

    import numpy as np
    import matplotlib.pyplot as plt
    from scipy.io import wavfile
     
    rate_h, hstrain= wavfile.read(r"H1_Strain.wav","rb")
    rate_l, lstrain= wavfile.read(r"L1_Strain.wav","rb")
    #reftime, ref_H1 = np.genfromtxt('GW150914_4_NR_waveform_template.txt').transpose()
    reftime, ref_H1 = np.genfromtxt('wf_template.txt').transpose() #使用python123.io下载文件
     
    htime_interval = 1/rate_h
    ltime_interval = 1/rate_l
    fig = plt.figure(figsize=(12, 6))
     
    # 丢失信号起始点
    htime_len = hstrain.shape[0]/rate_h
    htime = np.arange(-htime_len/2, htime_len/2 , htime_interval)
    plth = fig.add_subplot(221)
    plth.plot(htime, hstrain, 'y')
    plth.set_xlabel('Time (seconds)')
    plth.set_ylabel('H1 Strain')
    plth.set_title('H1 Strain')
     
    ltime_len = lstrain.shape[0]/rate_l
    ltime = np.arange(-ltime_len/2, ltime_len/2 , ltime_interval)
    pltl = fig.add_subplot(222)
    pltl.plot(ltime, lstrain, 'g')
    pltl.set_xlabel('Time (seconds)')
    pltl.set_ylabel('L1 Strain')
    pltl.set_title('L1 Strain')
     
    pltref = fig.add_subplot(212)
    pltref.plot(reftime, ref_H1)
    pltref.set_xlabel('Time (seconds)')
    pltref.set_ylabel('Template Strain')
    pltref.set_title('Template')
    fig.tight_layout()
     
    plt.savefig("Gravitational_Waves_Original.png")
    plt.show()
    plt.close(fig)
    

    pandas库入门

    1.Series,DataFrame一维和二维
    2.基本操作,运算操作,特征类操作,关联类操作。
    3.numpy是基础数据类型,关注数据的结构表达,维度是数据间的关系。
    pandas是扩展数据类型,关注数据的应用表达,维度是数据与索引间的关系。
    4.pandas库中的series类型
    series由数据及与之对应的相关数据索引组成
    5.series由python列表,标量值,python字典,ndarray,其他函数创建。
    import pandas as pd
    标量:
    s=pd.Series(25,index=['a','b','c'])
    字典:
    d=pd.Series({'a':9,'b':8})
    想要键和值不一一对应:
    e=pd.Series({'a':9,'b':8,'c':7}),index=['c','a','b','d'])
    ndarray:
    n=pd.Series(np.arange(5))
    m=pd.Series(np.arange())
    6.series操作
    b.index获得索引,b.values 获得数据
    series自动索引和自定义索引并存,但不能混用。
    7.b[3]获得是值
    b[:3]获得是索引加值。
    8.只有当选择series中一个的时候,是一个值,其他的都是series类型
    9.in只会判断自定义索引
    10.b.get('f',100)如果存在f,返回f,不存在,返回100.
    11.a+b索引相同的值相加。
    12.b.name,b.index.name。
    13.pandas库的dataframe类型
    dataframe由共同相同索引的一组列组成

    相关文章

      网友评论

        本文标题: mooc网python数据分析与展示

        本文链接:https://www.haomeiwen.com/subject/iqjjfxtx.html