美文网首页
初识统计学

初识统计学

作者: JJbin | 来源:发表于2020-09-15 23:58 被阅读0次

    一、什么是描述统计学

    官方定义:描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。

    通过四步法,收集获取数据、筛选处理数据、可视化展示数据、分析解释数据,找出数据中的规律,描述数据特征。

    常用的几种指标:

    1)平均值(算术平均值):

    缺点:对异常数字不敏感;当数据中有异常数值时,不能用平均数

    2)中位数:

    中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

    3)四分位数:

    四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。

    下界:数据集最小值

    下四分位数Q1:将中位数到下界之间的数据一分为二

    中位数Q2:中间的数字

    上四分位数Q3:将中位数到上界之间的数据一分为二

    上界:数据集最大值

    四分位数计算方法:

    第一步:计算中位数

    如何计算中位数:

    第二步:计算上下四分位数

    四分位数实际可以应用在哪些场景:

    1、比较数据

    2、识别可能的异常值

    4)标准差:

    标标准差(Standard Deviation) ,是离均差平方的算术平均数的算术平方根,用σ表示。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。[4]

    标准差能表示数据整体的波动。

    标准差的计算公式:

    数据集总体标准差:数据集除以N

    样本标准差估计总体标准差时:数据集除以N-1

    标准差的单位与计算数据的单位相同

    标准差的缺点:如果两个数据差别比较大,那么就无法比较。用标准差除以数据集的平均值,就可以消除数据大小的差异。

    (比如店铺A的销售额是1000万,店铺B的销售额是100万,两个店铺的标准差都是20万。如果说两个店铺的“波动幅度相同”,这是不对的。因为一般情况下,如果原始数据值较大,那么它的波动(标准差)也会比较大。这句话怎么理解呢?比如,20万对于1000万和100万的比例是不一样的,一个是五分之一,一个是五十分之一。)

    标准差除以平均值得到的值叫作变异系数。所以,我们通常用变异系数来比较不同数据集的波动大小。

    5)标准分:

    标准分,是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置的。

    用平均值与标准差计算,标准分=(数值-平均值)/标准差

    表示相对排名:某个数值距离平均值距离多少个标准差

    标准分为零,则该数值等于平均值

    大于零则该数值大于平均值

    小于零则该数值小于平均值

    二、熟悉数据集:

    选择的数据集:淘宝展示广告点击率预估数据集

    共有4个表,分别是

    raw_sample:原始的样本骨架数据集

    ad_feature:广告的基本信息数据集

    user_profile:用户的基本信息数据集

    raw_behavior_log:用户的行为日志数据集

    数据集来源:

    数据集-阿里云天池​tianchi.aliyun.com

    表一原始样本骨架raw_sample(114万用户8天内的广告展示/点击日志(2600万条记录)

    有6个字段信息:

    (1) user_id:脱敏过的用户ID;

    (2) adgroup_id:脱敏过的广告单元ID;

    (3) time_stamp:时间戳;

    (4) pid:资源位;

    (5) noclk:为1代表没有点击;为0代表点击;

    (6) clk:为0代表没有点击;为1代表点击;

    表二广告基本信息表ad_feature

    有6个字段信息:

    (1) adgroup_id:脱敏过的广告ID;

    (2) cate_id:脱敏过的商品类目ID;

    (3) campaign_id:脱敏过的广告计划ID;

    (4) customer_id:脱敏过的广告主ID;

    (5) brand:脱敏过的品牌ID;

    (6) price:宝贝的价格

    表三用户基本信息表user_profile

    有9个字段信息:

    (1) userid:脱敏过的用户ID;

    (2) cms_segid:微群ID;

    (3) cms_group_id:cms_group_id;

    (4) final_gender_code:性别1:男,2:女;

    (5) age_level:年龄层次;

    (6) pvalue_level:消费档次,1:低档,2:中档,3:高档;

    (7) shopping_level:购物深度,1:浅层用户,2:中度用户,3:深度用户

    (8) occupation:是否大学生,1:是,0:否

    (9) new_user_class_level:城市层级

    表四用户的行为日志behavior_log

    有9个字段信息:

    (1) user:脱敏过的用户ID;

    (2) time_stamp:时间戳;

    (3) btag:行为类型, 包括以下四种:

    ipv浏览

    cart加入购物车

    fav喜欢

    buy购买

    (4) cate:脱敏过的商品类目;

    (5) brand:脱敏过的品牌词;

    三、你想从该数据集中分析哪些业务问题?

    1、哪种类型的广告主比较多

    2、哪种类型的广告,用户点击量大

    3、不同年龄、性别、层次的人群,点击的广告有什么区别?

    4、不同人群展示的广告类型有什么区别?

    5、不同人群的购物偏好有什么不同?

    6、哪类商品在全年龄段中广受喜爱?

    7、什么样的人群是购物主力?

    相关文章

      网友评论

          本文标题:初识统计学

          本文链接:https://www.haomeiwen.com/subject/ahnqyktx.html