第三次作业——正态分布

作者: mudu86 | 来源:发表于2017-03-19 23:30 被阅读65次

第三次作业——正态分布
第三次作业-正态分布分析
正态分布作业一
正态分布作业二
正态分布
四、正态分布
赵浚皓思维导图
第三次作业
5.归一化
谈谈统计学正态分布阈值原理在数据分析工作中的运用

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline
%config InlineBackend.figure_format = 'retina'

def normfun(x,mu,sigma):
    pdf = np.exp(-((x-mu)**2) / (2*sigma**2)) / (sigma * np.sqrt(2*np.pi))
    return pdf

iq_data = pd.read_csv('IQscore.csv')
iq = iq_data['IQ']

len(iq)

max(iq)

min(iq)

mean = iq.mean()
std = iq.std()
x = np.arange(60,150,1)
y = normfun(x,mean,std)
plt.plot(x,y)
plt.hist(iq, bins = 10, rwidth = 0.9, normed = True)
plt.title('IQ distribution')
plt.xlabel('IQ score')
plt.ylabel('Porbability')
plt.show()

output_5_0.png

std = iq.std()

std

15.015905990389498

mean

100.82857142857142

对数据的理解：

该组数据平均值是100.83，标准差是15.02。
大部分的数据集中在85至115之间。
离平均值越远，数据越少，也可以理解为平均值与标准差之间的差值（mean-std）越大，数据越少。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline
%config InlineBackend.figure_format = 'retina'
def normfun(x,mu,sigma):
    pdf = np.exp(-((x-mu)**2) / (2*sigma**2)) / (sigma * np.sqrt(2*np.pi))
    return pdf

data = pd.read_csv('stakes.csv')
time = data['time']

len(time)

min(time)

146.0

max(time)

153.19999999999999

mean = time.mean()
std = time.std()
x = np.arange(145,155,0.1)
y = normfun(x,mean,std)
plt.rcParams["font.family"] = "SimHei"
plt.plot(x,y)
plt.hist(time, bins = 10, rwidth = 0.9, normed = True)
plt.title('Time')
plt.xlabel(u'时间')
plt.ylabel(u'占比率')
plt.show()