转载自:http://www.ericdai.cn
第一章 程序员的统计思维
一、项目主题概述
讨论的问题:如何将数据转化为知识?
本书介绍了概率论、统计学和计算三个相关联的学科。
研究的项目主题:第一个孩子出生晚么?
一般所谓的”经验之谈“会有以下问题:
1、观察的数据量太少
2、选择偏差:第一胎出生晚的父母更有兴趣参与讨论,从而对数据进行了选择。
3、确认偏差:相信的人支持,怀疑的人会举出反例。
4、不准确:传闻的记忆和表述都不会准确
更好的方法:
二、统计方法
统计手段
1、收集数据
2、描述性统计:计算能总结数据的统计量(均值等)
3、探索性数据分析:寻找模式、差异和其他特征,并检查不一致,确认其局限性。
4、估计:用样本数据推断全部人口的特征。
在本章出现的专业词汇:
经验之谈(anecdotal evidence)
直观效应(apparent effect)
总体(population)
原始数据(raw data)
统计显著(statistically significant)
汇总统计量(summary statistic)
选择偏差
确认偏差
横断面研究(cross-sectional study)
纵贯研究(longitudinal)
被调查者(respondent)
队列(cohort)
过采样(oversample)
代表性(representative):同等机会进入样本,那么这个样本就具有代表性
网友评论