kaggle-Predict Future Sales

作者: 第二人生lzy | 来源:发表于2020-09-01 09:59 被阅读0次

一、概述

1 预测目的

预测测试集在每个商店中出售的产品总数。

2 预测方法

2.1平稳性检测

假定某个时间序列由某一随机过程（stochastic process）生成，即假定时间序列{Xt}（t=1, 2, …）的每一个数值都是从一个概率分布中随机得到的。
如果经由该随机过程所生成的时间序列满足下列条件：

均值E(Xt)=m是与时间t 无关的常数；
方差Var(Xt)=s^2是与时间t 无关的常数；
协方差Cov(Xt,Xt+k)=gk 是只与时期间隔k有关，与时间t 无关的常数；

则称经由该随机过程而生成的时间序列是（弱）平稳的（stationary)。该随机过程便是一个平稳的随机过程（stationary stochastic process）。平稳性检测的目的就是保证时间序列的某种趋势是可以延续的，这样未来的数据才可以被预测。白噪声（white noise）过程就是平稳的。

2.2白噪声检测

白噪声是一个只包含随机因素的时间序列，他平稳的随机波动，但是不具有被预测的价值，所以对时间序列进行白噪声检测也是必要的，这决定了是否有必要进行下面的预测。

2.3时间序列包含的因素

1、长期趋势
长期趋势指的是统计指标在相当长的一段时间内，受到长期趋势影响因素的影响，表现出持续上升或持续下降的趋势，通常用字母T表示。例如，随着国家经济的发展，人均收入将逐渐提升；随着科学技术的发生，劳动生产率也不断提高。

2、季节因素
季节因素是指由于季节的转变使得指标数值发生周期性变动。由此可见，指标数值的季节变动是以年为周期的，一般以月、季、周为时间单位，不能以年作单位，通常用S表示。引起季节变动的因素有自然因素，也有人为因素。例如，蔬菜食品价格，棉衣销售量都会随着季节气温的变化而周期变化；每年的长假（五一、十一、春节）都会引起出行人数的大量增加。

3、周期因素
周期因素与季节因素不同，周期性因素通常以若干年为周期，在曲线图上表现为波浪式的周期变动。这种周期变动的特征变现为增加和减少交替出现。最典型的周期案例就是市场经济的商业周期。

4、随机因素
由某些随机因素导致的数值变化，这些因素的作用是不可预知和没有规律性的，因此对数值的变化影响变形为随机的。

2.4时间序列分析方法

1、传统的时间序列分析方法，研究时间序列是否能被分解成上面介绍的四种变动，并解析引起每种变动的影响因素。看因素之间是否有叠加效果，采用加法模型或者乘法模型。

yt=St + Tt + Et
yt=St x Tt x Et

2、时间序列的模型解析法，常用时间序列模型有自回归（AR）模型、滑动平均（MA）模型、自回归滑动平均（ARMA）模型等。

二、数据准备

1 数据处理

1.1 数据写入

因为我比较习惯在数据库操作，将数据写入数据库

#!/usr/bin/python3
# -*- encoding: utf-8 -*-
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import random as rd # generating random numbers
import datetime # manipulating date formats
import pandas as pd
import sqlalchemy
from sqlalchemy import create_engine

def append_csv():
    engine = create_engine('mysql+pymysql://root:Lzy814841@localhost:3306/kaggle')
    #数据写入数据库
    sales=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/sales_train.csv")
    #日期格式转换
    sales.date=sales.date.apply(lambda x:datetime.datetime.strptime(x, '%d.%m.%Y'))
    sales.to_sql('sales', engine, index= False)

    item_cat=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/item_categories.csv")
    item_cat.to_sql('item_cat', engine, index= False)

    item=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/items.csv")
    item.to_sql('item', engine, index= False)

    shops=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/shops.csv")
    shops.to_sql('shops', engine, index= False)

    test=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/test.csv")
    test.to_sql('test', engine, index= False)

数据已经存入数据库

1.2 清洗数据

数据清洗思路

（1）异常值

销量数item_cnt_day为负数7356条

#状态改为删除
update sales  set status =0 where item_cnt_day <0

（2）离群点

update sales  set status =0  where  item_price >=100000
update sales  set status =0  where  item_cnt_day >=1001

（3）异常值

item_price 为负数，用均值修正

select AVG(item_price) from sales where shop_id=32 and item_id=2973  and date_block_num=4 and item_price>0

update sales set item_price=1874 where item_price<0

（4）去除/修正不正常的数据
检查商店月度销售数据（放在excel比较直观）

select
t.shop_id,s.shop_name,
GROUP_CONCAT(distinct date_block_num) as sale_month ,
if(t1.shop_id is null,'不需要预测' ,'预测')
from sales t
left join shops s
on t.shop_id=s.shop_id
left join test t1
on t.shop_id=t1.shop_id
group by t.shop_id

观察数据和商店名称

修正数据

update sales set shop_id=57 where shop_id=0

update sales set shop_id=58 where shop_id=1

update sales set shop_id=10 where shop_id=11

1.3 观察数据特征

1、商品汇总统计

三、数据预测

1、只有33月的商店，直接用33月的结果预测34

 select 
t.ID,t.item_id,t.shop_id,sum(item_cnt_day) as item_cnt_month
 from
 test t
 left join sales sa
 on t.item_id=sa.item_id
 and t.shop_id=sa.shop_id
 where t.shop_id=36
 and sa.date_block_num=33
 group by sa.date_block_num,t.ID,t.item_id,t.shop_id

网友评论

本文标题：kaggle-Predict Future Sales

本文链接：https://www.haomeiwen.com/subject/pmgpsktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！