课堂作业
基于HRSalaries.csv数据回答问题:
- 计算HRSalaries数据中评分Review_Score的均值和中位数,并判断其偏度是左偏还是右偏;
- Review_Score的IQR值是多少?并绘制该数据的box图;
- Review_Score的标准差是多少?
- 在Review_Score中,求落在两个标准差内的数据占总数的百分比;
- 对于DoIT部门,计算其收入和评分的相关系数。
导入模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
导入文件
df = pd.read_csv('HRSalaries.csv')
观察数据
df.head()

df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30284 entries, 0 to 30283
Data columns (total 5 columns):
Employee_ID 30284 non-null int64
Position_Title 30284 non-null object
Department 30284 non-null object
Annual_Salary 30284 non-null int64
Review_Score 30284 non-null float64
dtypes: float64(1), int64(2), object(2)
memory usage: 1.2+ MB
数据量满大的30284条。也很完整。无缺失值。
Q1.计算HRSalaries数据中评分Review_Score的均值和中位数,并判断其偏度是左偏还是右偏
# 解题:
RS = df.Review_Score
RS_mean = RS.mean()
RS_median = RS.median()
print ('均值为:', RS_mean)
print ('中位数为:', RS_median)
if RS_mean > RS_median:
print ('Review_Score这列数据显现出来是右偏')
else:
print ('Review_Score这列数据显现出来是左偏')
#运行结果
均值为: 6.4558908994849205
中位数为: 6.5
Review_Score这列数据显现出来是左偏
Q2.Review_Score的IQR值是多少?并绘制该数据的box图
# 解题:
Q1 = RS.quantile(0.25)
Q3 = RS.quantile(0.75)
IQR = Q3 - Q1
IQR
# 运行结果
1.4000000000000004
# 绘图
RS.plot(kind='box', vert=False, figsize=(15, 5))
plt.show()

Q3.Review_Score的标准差是多少?
# 解题:
RS.std()
#运行结果
1.030404588021642
Q4.在Review_Score中,求落在两个标准差内的数据占总数的百分比
# 解题:
print (len(RS[RS.between(RS_mean - 2*RS.std(), RS_mean + 2*RS.std())]) / len(RS) *100,'%')
# 运行结果
96.17950072645621 %
Q5.对于DoIT部门,计算其收入和评分的相关系数
# 方法一:
IT = df[df.Department == 'DoIT']
IT[u'Annual_Salary'].corr(IT[u'Review_Score'])
# 方法一运行结果:
0.0060245710104947512
# 方法二:
np.corrcoef(IT.Annual_Salary, IT.Review_Score)[0,1]
# 方法二运行结果:
0.0060245710104947512
相关系数 小于0.5 。不相关。
方法二是在daisy同学上节课中的作业中学到的。感谢@ 孤单不孤单同学
我很奇怪为什么我的图表没有底纹,老师课堂上演示时是有底纹的。孤单不孤单同学提交的作业也是有底纹的。求解
网友评论