美文网首页大数据 爬虫Python AI Sql
数据挖掘05-python描述分析实践

数据挖掘05-python描述分析实践

作者: 南小明 | 来源:发表于2019-08-14 11:03 被阅读0次

小白入门数据挖掘,从零开始,每周一更。


00 项目简介

  • 数据集地址:http://jse.amstat.org/datasets/normtemp.dat.txt

  • 数据关于体温、性别、心率的临床数据,并对以下问题进行数据分析:

    01 人类体温均值真的是98.6F吗?

    02 体温样本数据是否服从正态分布?

    03 不正常的体温是多少?

    04 男性和女性的正常体温有明显的区别吗?

    05 体温和心率是否有相关性?


01 人类体温均值真的是98.6F吗?

  • 代码

    import pandas as pd
    我选择下载到本地,大家可以尝试使用request
    df = pd.read_csv('C:/Users/ny/Desktop/python/体温数据集.txt', engine='python', header=None, names=['体温', '性别', '心率'],sep='\s+')
    print(df['体温'].describe())

  • 执行结果

    count 130.000000
    mean 98.249231
    std 0.733183
    min 96.300000
    25% 97.800000
    50% 98.300000
    75% 98.700000
    max 100.800000
    Name: 体温, dtype: float64

  • 结论

    • 结果说明人的体温平均在98.25F

02 体温样本数据是否服从正态分布?

  • KS算法

    • 代码

      KS方法-(样本量大于50)
      u = df['体温'].mean()
      std = df['体温'].std()
      ks_test = stats.kstest(df['体温'], 'norm', (u, std))

    • 结果

      KstestResult(statistic=0.06472, pvalue=0.64503)

  • W检测

    • 代码

      end = stats.shapiro(df['体温'])

    • 结果

      (0.9865769743919373, 0.2331680953502655)

  • 直方图观察法

    • 代码

      plt.hist(df['体温'], bins=130, histtype='bar', color='r', density=True)
      plt.show()

    • 结果


  • 拟合曲线

    • 代码

      sns.set_palette("hls")
      sns.distplot(df['体温'], color='k', bins=130, kde=True)
      plt.show()

    • 结果


03 不正常的体温是多少?

  • 代码

    Q1 = df['体温'].quantile(q=0.25) Q3 = df['体温'].quantile(q=0.75)
    计算异常值范围,1.5倍四分位差
    low_quantile = Q1 - (Q3 - Q1) * 1.5 high_quantile = Q3 + (Q3 - Q1) * 1.5
    异常值筛选
    exception_value = df['体温'] < low_quantile) | (df['体温'] > high_quantile)]
    print(exception_value)

  • 结果

    0 96.3
    65 96.4
    129 100.8
    Name: 体温, dtype: float64

  • 箱线图

    • 代码

      plt.boxplot(df['体温']) plt.show()

    • 结果


04 男性和女性的正常体温有明显的区别吗?

  • 代码

    df2 = df[(df['体温'] >= low_quantile) | (df['体温'] <= high_quantile)]
    df_male = df2'体温' == 1]
    df_female = df2'体温' == 2]
    print(df_male.mean(), df_female.mean())

  • 结果

    98.1046153846
    98.3938461538


05 体温和心率是否有相关性?

  • 相关性解释

    相关系数 相关强度
    0.8-1.0 极强
    0.6-0.8
    0.4-0.6 中等
    0.2-0.4
    0.0-0.2 极弱
  • 代码

    print(df.corr())
    print(df.corr(method='pearson'))
    print(df.corr(method='spearman'))
    print(df.corr(method='kendall'))

  • 结果

    体温 性别 心率
    体温 1.000000 0.198006 0.253656
    性别 0.198006 1.000000 0.055766
    心率 0.253656 0.055766 1.000000
    体温 性别 心率
    体温 1.000000 0.198006 0.253656
    性别 0.198006 1.000000 0.055766
    心率 0.253656 0.055766 1.000000
    体温 性别 心率
    体温 1.000000 0.195231 0.280919
    性别 0.195231 1.000000 0.075927
    心率 0.280919 0.075927 1.000000
    体温 性别 心率
    体温 1.000000 0.163190 0.186489
    性别 0.163190 1.000000 0.063322
    心率 0.186489 0.063322 1.000000

  • 散点图

    • 代码

      plt.scatter(df['体温'], df['心率'])
      plt.show()

    • 结果


文章仅作为自己学习记录,内容来源于同学们学习总结内容。

Day Day up !

相关文章

  • 数据挖掘05-python描述分析实践

    小白入门数据挖掘,从零开始,每周一更。 00 项目简介 数据集地址:http://jse.amstat.org/d...

  • 数据挖掘的分类

    数据挖掘可以分为两大类一类为描述性的数据挖掘,另一类为预测性的数据挖掘。其中描述性的数据又分为关联规则,聚类分析,...

  • 蚂蚁金服支付宝技术部物料Growth-资深数据开发工程师 杭州

    职位描述 通过大数据处理和数据挖掘等技术,对供应链、资产、分销等运营数据进行挖掘分析,洞察增长策略,分析运营效果;...

  • 数据时代技能书单

    大数据时代,掌握处理数据的技能是必要的,书单包括数据清洗+数据挖掘+数据分析...... 1、数据清洗入门与实践 ...

  • 小数据| 描述性统计(Python/R 实现)

    描述性统计 描述性统计是借助图表或者总结性的数值来描述数据的统计手段。数据挖掘工作的数据分析阶段,可以借助描述性统...

  • 四种大数据分析方法与大家分享

    本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型分析。 当刚涉...

  • 大数据、数据挖掘和机器学习概念

    可以认为大数据、数据挖掘和机器学习是三个平行的概念。大数据侧重描述数据,数据挖掘侧重描述应用,机器学习侧重描述方法...

  • 数据分析

    数据分析,在我这里,只是一种辅助需求挖掘、业务分析的方法。 统计学上分为描述统计和推论统计。 描述统计,一句话描述...

  • 1分钟了解数据分析挖掘体系

    总体上来讲,数据分析挖掘体系可分为数据预处理、分析挖掘、数据探索、数据展现和分析工具。 数据预处理 数据预处理包含...

  • 数据分析师和数据挖掘工程师的区别?

    很多时候数据分析师也在做挖掘方面的工作,而数据挖掘工程师也会做数据分析的工作,数据分析也有很多时候用到数据挖掘的工...

网友评论

    本文标题:数据挖掘05-python描述分析实践

    本文链接:https://www.haomeiwen.com/subject/gfqwjctx.html