知识向量补充WK2

作者: 董子樂 | 来源:发表于2018-12-30 19:21 被阅读0次

12月的学习目标:(1)SQL基础(《SQL必知必会》学习与上级实践)和(2)《商务与经济统计》前13章


(1)已完成。以下重点论述分布模型-区间估计到假设检验的心得

(2).json文件导入DataFrame中发现其本身极不适应逐行插入

(3)文章最后有关于交通公开数据的彩蛋

- 概率分布模型-区间估计到假设检验

        正态分布(Normal Distribution),也就是我们大多时候面对花花世界看待宏观事物经常能用来理解的概率分布模型。定位是若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。

        在σ已知的情况下我们可以用总体的μ和σ去归一化得到Z,将一般均值和方差的分布转换成常见的正太分布,(相处的越久越发现真的很正太)。用Z可以来判断一些抽样的得到样本均值是不是在大概率分布里,如果出现与承诺不符的产品批次,如何利用置信区间去判断拒绝标准。这就涉及假设检验的范畴了。

        假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立。

        通俗的讲,就是讲我可以承担一定的犯错概率(第一类错误)来决定是否拒绝H0假设,根据就是P-值的大小,和与confidence显著性水平(什么鬼命名,故弄玄虚)比较:

switch(p):

(0, 0.01) 小概率事件,没有理由支持H0假设,拒绝并转支持Ha假设吧

[0.01, 0.05) 拒绝H0假设 ≠ 支持Ha假设

[0.05, X) 越接近1越让我们无法拒绝H0假设,但是仍需注意不同显著性水平根据拒绝H0的成本来定,特别是对一些对精度要求高的行业,例如精密机械电子,容器量器规格,α可以定的低点;碰到拒绝成本高,或者质量管理宽松的就不要定太小的啦。

还有应用于σ未知的T分布,适用于频数方差的F分布。

以上是针对抽样群体与总体的关系研究,而需要针对总体下多个变量,多种组别的关系分析,就需要用到方差分析了,  ANOVA横空出世。假设检验的分析流程原理类似,但需要用的ANOVA表可以更清晰表明整个在做什么:

SST=SSTR+SSE,自由度为N-1, 作为一个整体可以将离散量化数值分成组间,即不同变量影响下的个体分布集中区域的差异,和组内即个体分布内离散值的差异或者波动情况。因为无论总体还是处理组个体,都是对称式分布,所以自由度都是处理变量-1(因为\sum_{a}^b \bar{x} =0)进而得到mean squre 和 比值F,F值越大说明 组间的均值离差程度越高,因为分母组内离散水平不受分布均值差异的影响算是定量,所以F大-P值越小,越容易落入到小概率的区间范围,从而拒绝原零假设。

- .json文件导入DataFrame中发现其本身极不适应逐行插入

亲身经历,逐行插入行数据的时间无止境。应该先用关系型列表或者字典写入,再整体交给DF去数据框化。因为:

python - Efficiently add single row to Pandas Series or DataFrame

That's probably as efficient as any, but Pandas/numpy structures are fundamentally not suited for efficiently growing. They work best when they are created with a fixed size and stay that way. BrenBarnDec 6 '12 at 20:43

append is a wrapper for concat, so concat would be marginally more efficient, but as @BrenBarn says Pandas is probably not appropriate for updating a HDF5 file every second.If you absolutely need Pandas for some reason, could you collect a list of Series and update the file periodically instead?Matti JohnDec 6 '12 at 20:54

Bren is right about numpy/pandas working best when preallocated.If memory is no constraint just preallocate a huge zeros array and append at the end of the program removing any excess zeros.Which I suppose is a bit of what Matti is saying. –arynaqDec 6 '12 at 21:16

Intro to Data Structures

- 文末彩蛋

http://transportdata.cn/

全国首个出行数据开放与应用平台开放海量交通数据 众创决策开发服务非常棒!几乎能搜索到足够多的交通数据样例,公交线路,站点,浮动车GPS,路口三基数

https://outreach.didichuxing.com/research/opendata/

滴滴开放(需要申请API)

相关文章

  • 知识向量补充WK2

    12月的学习目标:(1)SQL基础(《SQL必知必会》学习与上级实践)和(2)《商务与经济统计》前13章 (1)已...

  • [补充]向量空间

    概念 空间本身没有内涵网格,每个人都会绘画出不同的网格,网格只是一个人为的框架,是有助于理解坐标可视化的工具,但是...

  • %in%很简单

    本文是对全国巡讲的补充,但也写全了背景知识,可以从头学习。 1.背景知识 上课时讲到【向量取子集】的两种方法: (...

  • [Unity游戏开发]向量在游戏开发中的应用(一)

    向量在游戏开发中是非常实用的,我们在学校学完向量的知识后,只知道向量的基本知识,但对于如何将所学到的向量知识运用到...

  • 3D数学基础及图形开发(二)向量

    向量 向量的基本知识 行向量与列向量 向量分为1维,2维,3维,甚至多维向量,1维的向量是标量。 零向量是唯一一个...

  • 学习小组DAY5笔记-非非

    数据结构 小本本先记下的注意事项 向量 1.区分标量和向量 标量:一个元素组成的变量向量:多个元素组成的变量(补充...

  • 学习小组Day5笔记-随风

    基本知识 向量数据框矩阵数组 向量 标量:一个元素向量:多个元素 向量中提取元素 数据框 读取数据 行名和列名 导...

  • 知识补充

    在不允许修改参数变量的值时可以加上const修饰符 图片 在ios中会自动识别图片@几x来按比例显示假如图片是xx...

  • 知识补充

    1. 傅立叶变换: (1) 傅立叶级数:法国数学家傅里叶发现,任何周期函数都可以用正弦函数和余弦函数构成的无穷级数...

  • 知识补充

    必备词 breakfast voucher[ˈvaʊtʃɚ] 早餐卷 lunch voucher dinner v...

网友评论

    本文标题:知识向量补充WK2

    本文链接:https://www.haomeiwen.com/subject/rkovlqtx.html