美文网首页
kaggle-Predict Future Sales

kaggle-Predict Future Sales

作者: 第二人生lzy | 来源:发表于2020-09-01 09:59 被阅读0次

    一、概述

    1 预测目的

    预测测试集在每个商店中出售的产品总数。

    2 预测方法

    2.1平稳性检测

    假定某个时间序列由某一随机过程(stochastic process)生成,即假定时间序列{Xt}(t=1, 2, …)的每一个数值都是从一个概率分布中随机得到的。
    如果经由该随机过程所生成的时间序列满足下列条件:

    • 均值E(Xt)=m是与时间t 无关的常数;
    • 方差Var(Xt)=s^2是与时间t 无关的常数;
    • 协方差Cov(Xt,Xt+k)=gk 是只与时期间隔k有关,与时间t 无关的常数;

    则称经由该随机过程而生成的时间序列是(弱)平稳的(stationary)。该随机过程便是一个平稳的随机过程(stationary stochastic process)。平稳性检测的目的就是保证时间序列的某种趋势是可以延续的,这样未来的数据才可以被预测。白噪声(white noise)过程就是平稳的。

    2.2白噪声检测

    白噪声是一个只包含随机因素的时间序列,他平稳的随机波动,但是不具有被预测的价值,所以对时间序列进行白噪声检测也是必要的,这决定了是否有必要进行下面的预测。

    2.3时间序列包含的因素

    1、长期趋势
    长期趋势指的是统计指标在相当长的一段时间内,受到长期趋势影响因素的影响,表现出持续上升或持续下降的趋势,通常用字母T表示。例如,随着国家经济的发展,人均收入将逐渐提升;随着科学技术的发生,劳动生产率也不断提高。

    2、季节因素
    季节因素是指由于季节的转变使得指标数值发生周期性变动。由此可见,指标数值的季节变动是以年为周期的,一般以月、季、周为时间单位,不能以年作单位,通常用S表示。引起季节变动的因素有自然因素,也有人为因素。例如,蔬菜食品价格,棉衣销售量都会随着季节气温的变化而周期变化;每年的长假(五一、十一、春节)都会引起出行人数的大量增加。

    3、周期因素
    周期因素与季节因素不同,周期性因素通常以若干年为周期,在曲线图上表现为波浪式的周期变动。这种周期变动的特征变现为增加和减少交替出现。最典型的周期案例就是市场经济的商业周期。

    4、随机因素
    由某些随机因素导致的数值变化,这些因素的作用是不可预知和没有规律性的,因此对数值的变化影响变形为随机的。

    2.4时间序列分析方法

    1、传统的时间序列分析方法,研究时间序列是否能被分解成上面介绍的四种变动,并解析引起每种变动的影响因素。看因素之间是否有叠加效果,采用加法模型或者乘法模型。

    • yt=St + Tt + Et
    • yt=St x Tt x Et

    2、时间序列的模型解析法,常用时间序列模型有自回归(AR)模型、滑动平均(MA)模型、自回归滑动平均(ARMA)模型等。

    二、数据准备

    1 数据处理

    1.1 数据写入

    因为我比较习惯在数据库操作,将数据写入数据库

    #!/usr/bin/python3
    # -*- encoding: utf-8 -*-
    import numpy as np # linear algebra
    import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
    import random as rd # generating random numbers
    import datetime # manipulating date formats
    import pandas as pd
    import sqlalchemy
    from sqlalchemy import create_engine
    
    def append_csv():
        engine = create_engine('mysql+pymysql://root:Lzy814841@localhost:3306/kaggle')
        #数据写入数据库
        sales=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/sales_train.csv")
        #日期格式转换
        sales.date=sales.date.apply(lambda x:datetime.datetime.strptime(x, '%d.%m.%Y'))
        sales.to_sql('sales', engine, index= False)
    
        item_cat=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/item_categories.csv")
        item_cat.to_sql('item_cat', engine, index= False)
    
        item=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/items.csv")
        item.to_sql('item', engine, index= False)
    
        shops=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/shops.csv")
        shops.to_sql('shops', engine, index= False)
    
        test=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/test.csv")
        test.to_sql('test', engine, index= False)
    
    数据已经存入数据库

    1.2 清洗数据

    数据清洗思路

    (1)异常值

    销量数item_cnt_day为负数7356条
    #状态改为删除
    update sales  set status =0 where item_cnt_day <0 
    
    
    • (2)离群点
    update sales  set status =0  where  item_price >=100000
    update sales  set status =0  where  item_cnt_day >=1001
    
    
    • (3)异常值

    item_price 为负数,用均值修正

    select AVG(item_price) from sales where shop_id=32 and item_id=2973  and date_block_num=4 and item_price>0
    
    update sales set item_price=1874 where item_price<0
    
    • (4)去除/修正不正常的数据
      检查商店月度销售数据(放在excel比较直观)
    select
    t.shop_id,s.shop_name,
    GROUP_CONCAT(distinct date_block_num) as sale_month ,
    if(t1.shop_id is null,'不需要预测' ,'预测')
    from sales t
    left join shops s
    on t.shop_id=s.shop_id
    left join test t1
    on t.shop_id=t1.shop_id
    group by t.shop_id
    
    
    观察数据和商店名称

    修正数据

    update sales set shop_id=57 where shop_id=0
    
    update sales set shop_id=58 where shop_id=1
    
    update sales set shop_id=10 where shop_id=11
    

    1.3 观察数据特征

    1、商品汇总统计

    三、数据预测

    1、只有33月的商店,直接用33月的结果预测34

     select 
    t.ID,t.item_id,t.shop_id,sum(item_cnt_day) as item_cnt_month
     from
     test t
     left join sales sa
     on t.item_id=sa.item_id
     and t.shop_id=sa.shop_id
     where t.shop_id=36
     and sa.date_block_num=33
     group by sa.date_block_num,t.ID,t.item_id,t.shop_id
    

    相关文章

      网友评论

          本文标题:kaggle-Predict Future Sales

          本文链接:https://www.haomeiwen.com/subject/pmgpsktx.html