美文网首页
数据分析概述

数据分析概述

作者: 一笑乘风凉 | 来源:发表于2019-10-10 10:19 被阅读0次

    1、数据分析定义

    数据分析是指通过某种方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律等分析结果,为特定的研究或商业目的提供参考。

    2、数据分析六部曲

    数据分析的过程主要包括:明确分析目的和内容、数据收集、数据预处理、数据分析、数据展现、报告撰写。

    (1)、明确分析目的和内容

    在进行数据分析之前,数据分析师应对需要分析的项目进行详细了解:数据分析的对象是谁?数据分析的商业目的是什么?最后的结果要解决什么样的业务问题?
    对数据分析目的的把握,是数据分析项目成败的关键,只有对数据分析的目的有深刻的理解,才能整理出完整的分析框架和分析思路,因为不同的数据分析目的所选择的数据分析方法是不同的。

    (2)、数据收集

    数据收集是一个按照确定的数据分析和框架内容,有目的的收集、整理相关数据的过程,它是数据分析的基础。
    数据收集方法:观察法、访谈法、问卷法、测验法和数据库获取法等。

    (3)、数据预处理

    数据与处理是指对收集到的数据进行加工、整理、以便开展数据分析。数据预处理的过程概括起来包括:数据审查、数据清理、数据转换、数据验证。
    第一步:数据审查
    该步骤检查数据的数量(记录数)是否满足分析的最低要求,变量值的内容是否与研究目的的要求一致,是否全面,包括利用描述性统计分析,检查各个变量的数据类型,变量值的最大值、最小值、平均数、中位数等,数据个数、缺失值和空值个数等。
    第二步:数据清理
    该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用合适的方法进行清理,同时也包括删除重复记录。
    第三步:数据转换
    数据分析强调分析对象的可比性,但不同变量值由于计量单位等不同,使得数据不可比,因此需要在数据分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化以及属性构造等。
    第四步:数据验证
    该步骤的目的是初步评估和判断数据是否满足统计分析的需要,从而决定是否需要增加或减少数据量。可以利用简单的线性模型及散点图、直方图、折线图等图形进行探索性分析,利用相关分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和有偏差的数据带入到数据分析模型中。

    (4)、数据分析

    实现从数据到知识的分析过程,从而解决商业问题。
    其一要熟悉常用的数据分析方法:方差、回归、因子、聚类、分类、时间序列等数据分析方法的原理、使用范围、优缺点和结果的解释。
    其二要熟悉数据分析工具:一般工具Excel、专业分析软件如SPSS、SAS、MATLAB、R等

    (5)、数据展现

    “字不如表,表不如图”
    数据展现常用的图有:饼图、折线图、柱形图/条形图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕累托图等。

    (6)、报告撰写

    通过分析报告,可以把数据分析的目的、过程、结果及方案完整呈现出来,从而为达到商业目的提供参考。
    数据分析报告需要有明确的结论、建议和解决方案。

    3、数据分析方法简介

    数据分析方法根据使用的工具和理论的难度分为四个层次:单纯的数据加工方法、数理统计分析方法、数据挖掘方法和大数据分析方法。

    (1)、单纯的数据加工方法

    侧重于数据的加工和预处理,使用的工具一般是SQL和Excel,这种方法典型的代表是:描述性统计分析和相关分析。
    第一:描述性统计分析
    描述性统计分析是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。如:需要分析一万个数时仅用八个数就把这一万个数说清楚了。
    描述性统计分析分为集中趋势分析、离中趋势分析和相关分析三大部分。
    集中趋势分析:主要靠平均数、中数、纵数等统计指标来表示数据的集中趋势;
    离中趋势分析:主要靠全距、四分差、平均差、方差、标准差等统计指标来研究数据的离中趋势;
    相关分析:研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行其相关方向及相关程度的研究。
    第二:回归分析
    确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
    第三:对应分析
    又称为“关联分析”、“R-Q”型因子分析
    通过分析由定性变量构成的交互汇总表来揭示变量间的联系。
    第四:因子分析
    指研究从变量群中提取共性因子的统计技术。
    第五:方差分析
    用于两个及两个以上样本均数差别的显著性检验

    (2)、数据挖掘方法简介

    第一:聚类分析
    将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇的过程,同一个簇的对象有很大的相似性,而不同簇间的对象有很大的相异性。
    第二:分类分析
    (1)决策树:一种逼近离散值目标函数的方法,对噪声数据有很好的健壮性且能学习吸取表达式。决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。
    (2)人工神经网络:通过输入多个非线性模型及不同模型之间的加权互联,最终得到一个输出模型,其中,隐蔽层所包含的就是非线性函数。
    (3)贝叶斯分类方法:用来预测类成员间关系的可能性。比如通过一个给定的观察值的相关属性来判断其属于一个特定类别的概率。
    (4)支持向量机:在线性情况下,就在原空间寻找两类样本的最优分类超平面;在非线性情况下,使用一种非线性映射,将原训练数据集映射到较高的维上,在新维上搜索线性最佳分离超平面。
    (5)随机森林:一种组合分类器,它利用bootstrap重抽样方法从原始样本中抽取多个样本,对每个bootstrap样本进行决策树建模,然后将这些决策树组合在一起,通过投票得出最终分类或预测的结果。
    第三:关联规则
    找出数据集中的频繁模式,即多次重复出现的模式和并发关系,即同时出现的关系,频繁和并发关系也被称为关联关系。如购物篮分析。
    第四:回归分析
    主要描述一个因变量如何随着一批自变量的变化而变化。

    (3)、统计分析和数据挖掘的区别和联系

    联系:
    从两者的理论源来看,它们都是源于统计基础理论,因此很多方法都是同根同源的。
    区别:
    数据挖掘是统计分析的延伸和扩展,统计分析需要对数据分布和变量间的关系做假设,而数据挖掘不需要对数据分布做任何假设,数据挖掘的算法会自动寻找变量间的关系;统计分析在预测中的应用常常表现为一个或一组函数关系式,而数据挖掘在预测应用中的重点在预测的结果。

    相关文章

      网友评论

          本文标题:数据分析概述

          本文链接:https://www.haomeiwen.com/subject/wtchyctx.html