美文网首页解密大数据
作业-数据描述之统计量

作业-数据描述之统计量

作者: pnjoe | 来源:发表于2017-07-27 15:39 被阅读46次

课堂作业

基于HRSalaries.csv数据回答问题:

  • 计算HRSalaries数据中评分Review_Score的均值和中位数,并判断其偏度是左偏还是右偏;
  • Review_Score的IQR值是多少?并绘制该数据的box图;
  • Review_Score的标准差是多少?
  • 在Review_Score中,求落在两个标准差内的数据占总数的百分比;
  • 对于DoIT部门,计算其收入和评分的相关系数。

导入模块

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline
%config InlineBackend.figure_format = 'retina'

导入文件

df = pd.read_csv('HRSalaries.csv')

观察数据

df.head()
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30284 entries, 0 to 30283
Data columns (total 5 columns):
Employee_ID       30284 non-null int64
Position_Title    30284 non-null object
Department        30284 non-null object
Annual_Salary     30284 non-null int64
Review_Score      30284 non-null float64
dtypes: float64(1), int64(2), object(2)
memory usage: 1.2+ MB

数据量满大的30284条。也很完整。无缺失值。

Q1.计算HRSalaries数据中评分Review_Score的均值和中位数,并判断其偏度是左偏还是右偏

# 解题:
RS = df.Review_Score
RS_mean = RS.mean()
RS_median = RS.median()
print ('均值为:', RS_mean)
print ('中位数为:', RS_median)

if RS_mean > RS_median:
    print ('Review_Score这列数据显现出来是右偏')
else:
    print ('Review_Score这列数据显现出来是左偏')
#运行结果
均值为: 6.4558908994849205
中位数为: 6.5
Review_Score这列数据显现出来是左偏

Q2.Review_Score的IQR值是多少?并绘制该数据的box图

# 解题:
Q1 = RS.quantile(0.25)
Q3 = RS.quantile(0.75)
IQR = Q3 - Q1
IQR

# 运行结果
1.4000000000000004
# 绘图
RS.plot(kind='box', vert=False, figsize=(15, 5))
plt.show()

Q3.Review_Score的标准差是多少?

# 解题:
RS.std()

#运行结果
1.030404588021642

Q4.在Review_Score中,求落在两个标准差内的数据占总数的百分比

# 解题:
print (len(RS[RS.between(RS_mean - 2*RS.std(), RS_mean + 2*RS.std())]) / len(RS) *100,'%')

# 运行结果
96.17950072645621 %

Q5.对于DoIT部门,计算其收入和评分的相关系数

# 方法一:
IT = df[df.Department == 'DoIT']
IT[u'Annual_Salary'].corr(IT[u'Review_Score'])

# 方法一运行结果:
0.0060245710104947512
# 方法二:
np.corrcoef(IT.Annual_Salary, IT.Review_Score)[0,1]

# 方法二运行结果:
0.0060245710104947512

相关系数 小于0.5 。不相关。

方法二是在daisy同学上节课中的作业中学到的。感谢@ 孤单不孤单同学


我很奇怪为什么我的图表没有底纹,老师课堂上演示时是有底纹的。孤单不孤单同学提交的作业也是有底纹的。求解

相关文章

  • 作业-数据描述之统计量

    课堂作业 基于HRSalaries.csv数据回答问题:计算HRSalaries数据中评分Review_Score...

  • R语言学习(六)基本统计分析--上

    整体数据计算描述性统计量 summary()函数 可以使用summary()函数来获取描述性统计量 可以看出sum...

  • SPSS多元统计分析之描述统计量

    描述统计量 为了从大量数据中提取有效的信息,可以通过计算一些通称为描述统计量的概括性数字来对样本数据进行分析,进而...

  • 数据分析第三课进阶作业分析

    第三课进阶作业分析 目的 基于 smoking_cancer.text 数据,用描述统计量和统计图表对其进行分析,...

  • 作业-吸烟与癌症数据分析

    课堂作业基于smoking_cancer.text数据,用描述统计量和统计图表对其进行分析,并投稿到简书“解密大数...

  • 基本统计量应用

    案例 使用基本描述统计量计算存款金额的基本描述统计量,并分别对城镇储户和农村储户进行比较。 数据 实验体会 首先拿...

  • 小数据| 描述性统计(Python/R 实现)

    描述性统计 描述性统计是借助图表或者总结性的数值来描述数据的统计手段。数据挖掘工作的数据分析阶段,可以借助描述性统...

  • 01 赤裸裸的统计学-描述性数据

    1.数据分类 原始数据:数据越多,事实越模糊。描述性数据(统计量):易于理解,简单,但传达的信息却十分有限。 2....

  • spss学习7--描述分析

    步骤: 分析+描述统计+描述 +需要分析的变量+选项+勾选所需要输出的统计量 +继续+确定 描述分析提供的统计量仅...

  • 数据认知之数据描述

    当我们拿到一批规范的数据时,首先要做的是对这批数据有个初步的了解。这个过程不仅是了解数据的过程,也是数据向我们描述...

网友评论

    本文标题:作业-数据描述之统计量

    本文链接:https://www.haomeiwen.com/subject/xivzkxtx.html