一、概述
1 预测目的
预测测试集在每个商店中出售的产品总数。
2 预测方法
2.1平稳性检测
假定某个时间序列由某一随机过程(stochastic process)生成,即假定时间序列{Xt}(t=1, 2, …)的每一个数值都是从一个概率分布中随机得到的。
如果经由该随机过程所生成的时间序列满足下列条件:
- 均值E(Xt)=m是与时间t 无关的常数;
- 方差Var(Xt)=s^2是与时间t 无关的常数;
- 协方差Cov(Xt,Xt+k)=gk 是只与时期间隔k有关,与时间t 无关的常数;
则称经由该随机过程而生成的时间序列是(弱)平稳的(stationary)。该随机过程便是一个平稳的随机过程(stationary stochastic process)。平稳性检测的目的就是保证时间序列的某种趋势是可以延续的,这样未来的数据才可以被预测。白噪声(white noise)过程就是平稳的。
2.2白噪声检测
白噪声是一个只包含随机因素的时间序列,他平稳的随机波动,但是不具有被预测的价值,所以对时间序列进行白噪声检测也是必要的,这决定了是否有必要进行下面的预测。
2.3时间序列包含的因素
1、长期趋势
长期趋势指的是统计指标在相当长的一段时间内,受到长期趋势影响因素的影响,表现出持续上升或持续下降的趋势,通常用字母T表示。例如,随着国家经济的发展,人均收入将逐渐提升;随着科学技术的发生,劳动生产率也不断提高。
2、季节因素
季节因素是指由于季节的转变使得指标数值发生周期性变动。由此可见,指标数值的季节变动是以年为周期的,一般以月、季、周为时间单位,不能以年作单位,通常用S表示。引起季节变动的因素有自然因素,也有人为因素。例如,蔬菜食品价格,棉衣销售量都会随着季节气温的变化而周期变化;每年的长假(五一、十一、春节)都会引起出行人数的大量增加。
3、周期因素
周期因素与季节因素不同,周期性因素通常以若干年为周期,在曲线图上表现为波浪式的周期变动。这种周期变动的特征变现为增加和减少交替出现。最典型的周期案例就是市场经济的商业周期。
4、随机因素
由某些随机因素导致的数值变化,这些因素的作用是不可预知和没有规律性的,因此对数值的变化影响变形为随机的。
2.4时间序列分析方法
1、传统的时间序列分析方法,研究时间序列是否能被分解成上面介绍的四种变动,并解析引起每种变动的影响因素。看因素之间是否有叠加效果,采用加法模型或者乘法模型。
- yt=St + Tt + Et
- yt=St x Tt x Et
2、时间序列的模型解析法,常用时间序列模型有自回归(AR)模型、滑动平均(MA)模型、自回归滑动平均(ARMA)模型等。
二、数据准备
1 数据处理
1.1 数据写入
因为我比较习惯在数据库操作,将数据写入数据库
#!/usr/bin/python3
# -*- encoding: utf-8 -*-
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import random as rd # generating random numbers
import datetime # manipulating date formats
import pandas as pd
import sqlalchemy
from sqlalchemy import create_engine
def append_csv():
engine = create_engine('mysql+pymysql://root:Lzy814841@localhost:3306/kaggle')
#数据写入数据库
sales=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/sales_train.csv")
#日期格式转换
sales.date=sales.date.apply(lambda x:datetime.datetime.strptime(x, '%d.%m.%Y'))
sales.to_sql('sales', engine, index= False)
item_cat=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/item_categories.csv")
item_cat.to_sql('item_cat', engine, index= False)
item=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/items.csv")
item.to_sql('item', engine, index= False)
shops=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/shops.csv")
shops.to_sql('shops', engine, index= False)
test=pd.read_csv("/Users/lizhongyao/Desktop/mysite/data/test.csv")
test.to_sql('test', engine, index= False)
数据已经存入数据库
1.2 清洗数据
数据清洗思路(1)异常值
销量数item_cnt_day为负数7356条#状态改为删除
update sales set status =0 where item_cnt_day <0
- (2)离群点
update sales set status =0 where item_price >=100000
update sales set status =0 where item_cnt_day >=1001
- (3)异常值
item_price 为负数,用均值修正
select AVG(item_price) from sales where shop_id=32 and item_id=2973 and date_block_num=4 and item_price>0
update sales set item_price=1874 where item_price<0
- (4)去除/修正不正常的数据
检查商店月度销售数据(放在excel比较直观)
select
t.shop_id,s.shop_name,
GROUP_CONCAT(distinct date_block_num) as sale_month ,
if(t1.shop_id is null,'不需要预测' ,'预测')
from sales t
left join shops s
on t.shop_id=s.shop_id
left join test t1
on t.shop_id=t1.shop_id
group by t.shop_id
观察数据和商店名称
修正数据
update sales set shop_id=57 where shop_id=0
update sales set shop_id=58 where shop_id=1
update sales set shop_id=10 where shop_id=11
1.3 观察数据特征
1、商品汇总统计
三、数据预测
1、只有33月的商店,直接用33月的结果预测34
select
t.ID,t.item_id,t.shop_id,sum(item_cnt_day) as item_cnt_month
from
test t
left join sales sa
on t.item_id=sa.item_id
and t.shop_id=sa.shop_id
where t.shop_id=36
and sa.date_block_num=33
group by sa.date_block_num,t.ID,t.item_id,t.shop_id
网友评论