美文网首页
常用预测类数据分析方法汇总

常用预测类数据分析方法汇总

作者: spssau | 来源:发表于2023-08-01 12:15 被阅读0次

本文将介绍一些常见的预测类数据分析方法,帮助大家了解它们的原理和适用范围。我们将探讨时间序列类预测方法,如指数平滑法和灰色预测模型;回归类预测方法,包括线性回归、logistic回归、非线性回归等,它们通过建立数学模型来预测数值结果;机器学习类预测方法,如决策树、随机森林和神经网络等,它们通过学习数据的模式和关联性来进行预测;还有一些其他的预测方法如马尔可夫预测、ROC曲线等。

一、时间序列数据预测

时间序列数据是按照时间顺序排列的数据集合,例如每天的销售量、每月的股票价格等。预测时间序列数据可以帮助我们了解未来的趋势和模式,从而做出更准确的决策。

比较常用的时间序列数据预测方法有以下几种。

接下来,将逐个进行说明。

1、指数平滑法

指数平滑法常用于数据序列较少时使用,且一般只适用于中短期预测。对于长期趋势或复杂非线性关系的数据可能表现不佳。
指数平滑可以继续拆分为一次平滑、二次平滑、三次平滑;一次平滑法为历史数据的加权预测,二次平滑法适用于具有一定线性趋势的数据,三次平滑法适用于具有一定曲线关系时使用。如果不设置平滑方法,SPSSAU将自动运行三种平滑方法,选择最优效果时对应的平滑方法。
指数平滑法中,初始值S0和平滑系数alpha是两个参数,用于确定预测模型的初始状态和对过去观察值的权重。说明如下表:


SPSSAU进行指数平滑法操作如下:

2、灰色预测模型

灰色预测模型可针对数量非常少(比如仅4个),数据完整性和可靠性较低的数据序列进行有效预测。


其利用微分方程来充分挖掘数据的本质,建模所需信息少,精度较高,运算简便,易于检验,也不用考虑分布规律或变化趋势等。但灰色预测模型一般只适用于短期数据、有一定指数增长趋势的数据进行预测,不建议进行长期预测。


SPSSAU进行灰色预测模型操作如下:

3ARIMA预测


ARIMA模型是最常见的时间序列预测分析方法,适用于平稳时间序列数据。它包括三个部分:自回归(AR)、差分(I)和移动平均(MA)。


SPSSAU可以智能地找出最佳的AR模型,I即差分值和MA模型,并且最终给出最佳模型预测结果。当然,研究人员也可以自行设置自回归阶数p,差分阶数d值和移动平均阶数q,然后进行模型构建。


具体来说,ARIMA模型有以下几个参数:



SPSSAU进行ARIMA预测操作如下:

4、季节Sarima模型

季节Sarima模型是ARIMA模型的一种扩展,用于处理具有明显季节性变化的时间序列数据。与ARIMA模型类似,季节ARIMA模型包括自回归(AR)、差分(I)和移动平均(MA)的组合。


SPSSAU可以智能地找出最佳的AR模型,I即差分值和MA模型,并且最终给出最佳模型预测结果。当然,研究人员也可以自行设置参数进行手工建模。
具体来说,季节ARIMA模型有以下几个参数:



SPSSAU进行季节Sarima预测操作如下:

5、VAR模型

在时间序列进行预测时, ARIMA可用于单一变量(比如GDP增长率)的预测,如果需要同时考虑多个变量的预测时(比如GDP增长率、失业率、储蓄率),此时可以使用VAR模型进行多变量预测。
VAR模型的构建流程较为复杂,如下图所述:


上述分析步骤和流程仅供参考使用,实际研究中可能仅需要其中一部分的分析即可。比如很多时候并不需要关注残差自相关检验和残差正态性检验,也或者有时对格兰杰因果检验关注度较少等,具体以研究者实际研究情况为准即可。


SPSSAU进行VAR模型操作如下:

二、回归分析方法预测

回归分析是一种常用的统计方法,用于建立变量间的关系模型,并通过该模型对未知数据进行预测。以下是一些典型的回归分析方法,可用于预测:

接下来,将逐个进行说明。

1、线性回归

线性回归分析常用于预测数值型数据。它基于自变量与因变量之间的线性关系建立模型,并利用该模型对未知的因变量进行预测。

2、logistic回归

logistic回归分析常用于预测分类变量数据。logistic回归又可细分为以下三种:二元logistic回归、有序logistic回归和多分类logistic回归。对比说明如下:

3、非线性回归

非线性回归分析可以用于预测具有非线性关系的数据。与线性回归不同,非线性回归使用非线性方程来拟合数据。


比如人口学增长模型Logistic(S模型),其模式公式为:y = b1 / (1 + exp(b2 + b3 * x)),诸如此类非线性关系(即不是直接关系)的非线性模型,可使用非线性回归进行研究。SPSSAU当前提供约50类非线性函数表达式,涵盖绝大多数非线性函数表达式。
SPSSAU非线性回归操作如下:

4、Possion回归

Possion回归是一种广义线性模型,通常用于预测因变量为计数型数据中事件发生的次数。它基于Possion分布假设,将因变量视为服从Possion分布的随机变量,并建立与自变量相关的线性关系来预测事件发生的次数。

Poisson分布数据一定是指每单位内的发生频数,比如某个路口每天闯红灯的汽车数量;一年内每万人中丢手机的频数等。

5、其他

除了上述介绍的4种类型回归,日常研究中我们所用到的绝大多数回归分析都可以进行预测。比如岭回归、lasso回归、负二项回归、主成分回归等等。有关其他回归方法的说明可以登陆SPSSAU查看各个分析方法的说明。

三、机器学习预测

机器学习是一种强大的技术,用于从数据中学习模式和规律,并利用这些知识进行预测。通过训练算法来自动发现数据中的模式,并根据这些模式进行未知样本的预测。
常用方法及说明如下:


有关六类机器学习算法说明,上周已经写过详细介绍,在此不再进行赘述。可点击下方文章进行学习:六种机器学习算法大揭秘:从决策树到神经网络,小白也能轻松掌握!

四、其他

除了以上3大类预测方法,还有两种比较特殊的预测分析方法,马尔可夫预测和ROC曲线。

1、马尔可夫预测


马尔可夫预测是一种基于马尔可夫链的预测方法。马尔可夫链是一个随机过程,具有马尔可夫性质,即未来状态的概率只取决于当前状态,与过去状态无关。马尔可夫预测利用这种性质来进行未来事件的预测。

马尔可夫预测涉及3个术语名词,如下说明:

SPSSAU马尔可夫预测操作如下:

2、ROC曲线

与上述预测类分析方法不同,ROC曲线并不能直接用于进行预测,而是用于研究XY的预测准确率情况
ROC曲线是一种评估分类模型性能的工具,它通过绘制分类器在不同阈值下的真阳性率(TPR)和假阳性率(FPR)之间的关系来展示模型的质量。ROC曲线的形状可以帮助我们理解模型在不同阈值下的表现,但它本身并不提供具体的预测结果。


ROC曲线如下图:

曲线越往左上角说明预测准确率越高;曲线越往左上角说明曲线下面积越大,即AUC值越大说明预测准确率越高。

相关文章

  • 常用的数据分析方法汇总

    16种常用的数据分析方法汇总 今天给大家整理了十六种常用的数据分析方法,供大家参考学习。 一、描述统计 描述性统计...

  • 2019-04-10

    16种常用的数据分析方法汇总 - anxixiaomu的博客 - CSDN博客[https://blog.csdn...

  • 用 sklearn 库决策树分类器进行收入水平分类丨数析学院精品

    课程简介: 分类和预测是两种常用数据分析方式,可以用于提取数据类模型、预测未来的数据趋势,被广泛用于信用评价、医疗...

  • 四种大数据分析方法与大家分享

    本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型分析。 当刚涉...

  • 《运营之光2.0》

    所思 【数据统计分析策略】描述性、探索性、推断性。【数据分析常用方法】对比分析法、分组分析法(渠道分解)、预测分析...

  • python机器学习-预测分析核心算法 Michale Bowl

    关于预测的两类核心算法 函数逼近/预测分析问题(分类问题、回归问题)解决方法:惩罚线性回归、集成方法 当数据含有大...

  • 常用线性回归模型

    多元线性回归 多元线性回归是最常用的预测数值型目标的建模方法,也常用于数据分析中的多因素分析。后面几种回归都是在它...

  • IO

    IO 复习 File 构造方法 File类的高级获取 常用方法 分析过程 FileReader 专门读取字符数据的...

  • 5. 数据分析

    数据分析方法 数据分析的现状分析、原因分析和预测分析三大作用分别基本对应对比、细分和预测三大基本方法。 对比分析法...

  • 第二周了…

    第二周,换了新的工作。还没到数据分析类的,这周在学习分类汇总和数据有限性,数据透视表,即都是Excel的常用功能。...

网友评论

      本文标题:常用预测类数据分析方法汇总

      本文链接:https://www.haomeiwen.com/subject/dvgypdtx.html