一、几种常见的随机变量分布形式和场景
- 正态分布 : 人的身高
- 二项分布 : 扔硬币
- 泊松分布 : λ^k/k! *e^(-λ),单位时间内随机事件发生的次数,一天内商场的顾客数,车站等车的人数,均值为λ
- 几何分布 : 掷骰子点数为1第一次出现所经过的实验次数
- 超几何分布 : 不放回抽样中,N个样品,M个次品,抽取n件,其中含有m件次品的概率
- 指数分布 : λe^(-λx),随机变量只能取正数,均值为1/λ,寿命的分布
二、几种辨别异常值/离群点的方法
- 基于正态分布,均值±3σ,大概有99%的概率不会落在这个范围之外
- 基于箱线图,上下四分位数±1.5倍的IQR(四分位差)
- 聚类方法:DBSCAN,噪声值点
网友评论