美文网首页
开始调整读书笔记工具链

开始调整读书笔记工具链

作者: 沈阳老孟 | 来源:发表于2020-03-28 11:23 被阅读0次

《写给所有人的极简统计学》

短评

读书没有太多收获,反倒是整理笔记的过程收获不小,重新调整了读书笔记编写的流程和工具。

导图

摘抄

第1章 数据整理的基础知识

  • 标注 (黄色)-第1章前言>位置172

总的来说,统计就是将收集到的数据(数值)进行整理并加以分析的学问。

  • 标注(黄色)-除法的两个意义>位置227

将一个整体平均分配的除法,专业术语叫作“等分除”。

  • 标注(黄色)-除法的两个意义>位置234

将整体分成数个等份的除法,专业术语叫作“包含除”。

  • 标注(黄色)-除法的两个意义>位置238

除法的两个意义 a \div b = p
(A)将a分成n等份,则每份有p个。【等分除】
(B)将a按照每份有n个等分,则可以分成p份(a有p份的n个)。【包含除】

  • 标注(黄色)-比例>位置243

比例的定义 比例=比较量÷基准量

  • 标注(黄色)-比例>位置252

相同单位的比例,即包含除的比例,其实是比较量(部分)在基准量(全体)中所占的比率。

  • 标注(黄色)-比例>位置265

综上所述,不同单位的比例,即等分除概念中的比例,表示的是单位量的大小。

  • 标注(黄色)-比例>位置266

相同单位的比例是包含除不同单位的比例是等分除

  • 标注(黄色)-图表>位置288

图表的特点:
(1)柱状图:表示大小
(2)折线图:表示变化
(3)饼图:表示比例
(4)带状图:比较比例

  • 标注(黄色)-图表>位置315

带状图通常用于根据年份等条件,比较同一项目的占比变化情况。

  • 标注(黄色)-图表>位置318

带状图中占比的增加(减少)不代表其绝对数值增加(减少),这一点需要多加注意。

  • 标注(黄色)-数据与变量>位置402

当一些变量(量化的变量)做加减运算有意义时,由这些变量组成的数据被称作“量化数据”。量化数据可以被细分为两个类别,分别为:骰子的数字、汽车的数量、人数等只能取跨越型数值的数据(离散型数据);身高、体重、时间等可以取连续数值的数据(连续型数据)。

  • 标注(黄色)-代表值>位置484

众数:一组数据中出现次数最多的数值。

  • 标注(黄色)-研究数据的离散性>位置509

四分位数的求法
(1)找出数据的最大值与最小值。
(2)找出数据的中位数→第二四分位数。
(3)求出中位数前半部分数据的中位数→第一四分位数。
(4)求出中位数后半部分数据的中位数→第三四分位数。

  • 标注(黄色)-研究数据的离散性>位置515

研究数据整体的离散性时,最大值、最小值以及3个四分位数被称为“5大要数”。

第2章数据分析的基础知识

  • 标注(黄色)-第2章前言>位置545

标准差”这一概念,即“数据相对于平均值的离散程度”。

  • 标注(黄色)-方差>位置758

V_x=\frac{1}{n}\sum_{i=1}^n(x_k-\overline{x})^2

  • 标注(黄色)-标准差>位置768

方差开根号后的值叫作标准差。

  • 标注(黄色)-标准差>位置780

方差的简单计算公式
V_x=\overline{x^2}-\overline{x}^2
方差=平方的平均-平均的平方)

  • 标注(黄色)-标准差>位置782

S_x=\sqrt{V_x}=\sqrt{\overline{X^2}-\overline{x}^2}

  • 标注(黄色)-标准差>位置785

在“多峰性分布”(即有数个峰值)的数据中,难以考证方差与标准差。因为,在这种数据中,有很多数值与平均值相差较大,以平均数为基准的数值难以确切表明数据与平均值的关系。

第3章用于研究关联性的数学

  • 标注(黄色)-一次函数>位置929

斜率为a且通过点 (p,q) 的式子为 y=a(x-p)+q

  • 标注(黄色)-图形的平移>位置963

二次函数 y=a(x-p)^2+q 的图像
(1)形状与 y=ax^2 相同。
(2)顶点为 (p,q)

  • 标注(黄色)-图形的平移>位置966
二次函数的平移
  • 标注(黄色)-配方法与二次函数的图像>位置996

二次函数的配方法
y=ax^2+bx+c=a\left(x+\frac{b}{2a}\right)^2-\frac{b^2-4ac}{4a}

  • 标注(黄色)-配方法与二次函数的图像>位置998
二次函数
  • 标注(黄色)-二次函数的最大值与最小值>位置1020
二次函数最大最小值
  • 标注(黄色)-点位图>位置1192
相关关系
  • 标注(黄色)-相关系数>位置1221

协方差公式将x与y的协方差写作
C_{xy}=\frac{1}{n}\sum_{n=1}^{k}(x_k-\overline{x})(y_k-\overline{y})

  • 标注(黄色)-相关系数>位置1224

相关系数的定义将x与y的相关系数写作r的话,则
r=\frac{C_{xy}}{S_x \cdot S_y}
注:标准差的公式如下
S_x=\sqrt{V_x}
S_y=\sqrt{V_y}

  • 标注(黄色)-相关系数的理论背景>位置1275

\left(\sum_{n=1}^{k}X_nY_n\right)^2 \leq \sum_{n=1}^{k}X_n^2 \cdot \sum_{n=1}^{k}Y_n^2
被称作柯西不等式

第4章分析离散数据的数学

  • 标注(黄色)-排列>位置1376

P_n^r=\frac{n!}{(n-r)!}

  • 标注(黄色)-组合>位置1408

C_n^r=\frac{P_n^r}{r!}

  • 标注(黄色)-组合>位置1414

C_n^r=C_n^{n-r}

  • 标注(黄色)-二项系数>位置1453

二项系数为 (a+b)^n 的展开式中,a^{n-k}b^k 的系数为 C_n^k

  • 标注(黄色)-二项系数>位置1460

二项定理
(x+y)^n = \sum_{k=0}^n {n \choose k} x^{n - k} y^k

  • 标注(黄色)-重复试验>位置1605

重复试验假设,在某项重复试验中,事件A发生的概率为P(A)=p \quad (0 \leq p \leq 1)
此试验反复n次,事件A发生k次的概率为:
C_n^k p^k (1-p)^{n-k} \quad (0 \leq k \leq n)

  • 标注(黄色)-等差数列>位置1651

等差数列的和
S_n=\frac{n(a_1+a_n)}{2}

  • 标注(黄色)-等比数列>位置1682

等比数列的和
S_n = \begin{cases} \dfrac{a_1(1-r^n)}{1-r} & & (r \neq 1) \\ na_1 & & (r = 1) \end{cases}

  • 标注(黄色)-∑记号的基本性质>位置1726

对于 \sum 记号可以使用分配律。

  • 标注(黄色)-平均值>位置1840

随机变数X的平均值(或期待值)
E(X)= \sum_{i=1}^n x_i p_i

  • 标注(黄色)-平均值>位置1847

随机变数是关于某个事件以一定概率而发生的变数,所以值并非确定。随机变数的平均值之所以被称为期待值,大家可以理解成:在真正研究随机变数时“平均的期望值”。

  • 标注(黄色)-aX+b的平均值>位置1866

当随机变数X与Y之间存在以下关系时:
Y=aX+b
则以下关系成立:
E(Y)=E(aX+b)=aE(X)+b

  • 标注(黄色)-aX+b的平均值>位置1880

随机变数X来说,其方差 V(X) 与标准差 S(X) 定义如下:
V(X)=E\left[ \left( X - \overline{X} \right)^2 \right] = \sum_{i=1}^n \left( x_i - \overline{X}\right)^2 p_i
S(X) = \sqrt{V(X)}

  • 标注(黄色)-aX+b的平均值>位置1897

随机变数的方差计算公式
V(X)=E(X^2)-[E(X)]^2

  • 标注(黄色)-aX+b的方差与标准差>位置1911

Y=aX+b a、b 为定数,则Y的方差 V(Y) 与标准差 S(Y) 如下所示:
V(Y)=a^2V(X)
S(Y)=aS(X)

  • 标注(黄色)-随机变数的标准化>位置1922

随机变数的标准化
Z=\frac{X-E(X)}{S(X)}

  • 标注(黄色)-随机变数的标准化>位置1927

这就意味着:只要对平均值为1、标准差为0的随机变数的性质做详细研究,其结果同样可以用于其他随机变数。

  • 备注-随机变数的标准化>位置1928
    写反了吧
  • 标注(黄色)-和的平均值>位置1955

E(X+Y)=E(X)+E(Y)

  • 标注(黄色)-积的平均值>位置1988

当随机变数X与Y相互独立时
E(X\cdot Y)=E(X) \cdot E(Y)

  • 标注(黄色)-和的方差>位置1995

随机变数X与Y在相互独立时,
V(X+Y)=V(X)+V(Y)

  • 标注(黄色)-二项分布>位置2023

随机变数X遵从二项分布 B(n,p) 时,X 的平均值与方差如下所示:
平均值:E(X)=np
方差:V(X)=np(1-p)
标准差:S(X)=\sqrt{np(1-p)}

第5章分析连续数据的数学

  • 标注(黄色)-欧拉常数e>位置2167

欧拉常数(自然对数的底)e 用以下极限来定义的定数e被称作欧拉常数或自然对数的底。
\lim_{n\to\infty} \left( 1 + \frac{1}{n} \right)^n = e

  • 标注(黄色)-欧拉常数e>位置2183

注:欧拉公式 e^{i\theta}=\cos\theta + i\sin\theta

  • 标注(黄色)-欧拉常数e>位置2186

e^{i\pi}+1=0
这个式子表示了 e(欧拉常数)、i(虚数单位)、π(圆周率)、1(乘法单位元)、0(加法单位元)这些数学中非常重要的中心元素之间的关系。

  • 标注(黄色)-连续型随机变数与概率密度函数>位置2326

概率密度函数的性质
f(x) \geq 0
\int_{-\infty}^\infty f(x)\mathrm{d}x=1

  • 标注(黄色)-连续型随机变数的平均值与方差>位置2336

连续型随机变数X的取值范围在 α≤X≤β,且概率密度函数为 f(x)时:
平均值:E(X)=\int_\alpha^\beta xf(x)\mathrm{d}x
方差:V(X)=\int_\alpha^\beta (x-\mu)^2f(x)\mathrm{d}x \qquad [\mu=E(X)]

  • 标注(黄色)-正态分布>位置2378

正态分布的概率密度函数可以借用自然对数的底 e,写成
f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

  • 标注(黄色)-正态分布>位置2396

正态分布的平均值与标准差当 X 是呈正态分布 N(\mu,\sigma^2) 的随机变数时:
平均值:E(X)=\mu
标准差:S(X)=\sigma

  • 标注(黄色)-正态分布>位置2401

标准正态分布当随机变数 X 呈正态分布时,假设随机变数 Z 满足
Z=\frac{X-\mu}\sigma
则随机变数 Z 呈 N(0,1) 的标准正态分布。将 μ=0,σ=1 带入,则呈标准正态分布的概率密度函数为:
f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}2}

  • 标注(黄色)-正态分布表>位置2415

标准正态分布重要的性质随机变数 Z 呈标准正规分布 N(0,1) 时,
1.96 ≤ Z ≤ 1.96 的面积占全体面积的 95%。


标准正态分布
  • 标注(黄色)-正态分布表>位置2417

呈正态分布的随机变数式使用⑪式后,随时可以变换成标准正态分布的式子,所以标准正态分布的这个性质可以被广泛应用。

  • 标注(黄色)-什么是推测统计>位置2421

推测统计分为两个重要模块,一是通过研究样本对母集团做出概率预测的“推算”;二是针对已知数据的差值,找出产生差值原因的“检验”。

  • 标注(黄色)-什么是推测统计>位置2445

“μ 的 95% 置信区间是 α≤μ≤β ”是指:“在母集团中随机观测与这一次相同数量的数据,且用同样的方式重复确定置信区间的话,那么,在100次中大概有95次,μ 的值落在 a 以上 b 以下的范围内。”

  • 标注(黄色)-什么是推测统计>位置2465

以这一标准进行的检验被称为“有意水准5%验证”。在已知母集团呈标准差为 σ 的正态分布时,建立“真正的平均值为 μ”这一假说,并进行“有意水准 5% 验证”后,如果针对被观测的数据 X 来说:
-1.96 \leq \frac{x-\mu}\sigma \leq 1.96
以上不等式成立的话,我们就说“接受原假设”。反之,不等式不成立时,就说“拒绝原假设”。

相关文章

网友评论

      本文标题:开始调整读书笔记工具链

      本文链接:https://www.haomeiwen.com/subject/xqrjuhtx.html