美文网首页
数据分析:大数据处理的基本流程(三)

数据分析:大数据处理的基本流程(三)

作者: 企通查 | 来源:发表于2020-11-03 11:13 被阅读0次

01

什么是数据分析

随着数字化进程的高速发展,越来越多的企业面对愈加激烈的竞争,差异化的市场,多变的环境,常常会面临各种难题,也变得更依赖于数据。

分析的本质是让业务更加清晰,让决策更加高效。数据分析作为大数据价值产生的必要步骤、整个大数据处理流程的核心,其在企业中的地位也越来越重要。

数据分析的目的说白了就是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,对其加以汇总、理解并消化,以求最大化地开发数据的功能,从而找出所研究对象的内在规律,发挥数据的作用。

简而言之,数据分析就是一个有组织、有目的收集数据、为了使其成为信息而对数据加以详细研究和概括总结的过程。

在企业实际应用中,数据分析的一系列过程也是产品质量管理体系的支持过程。在企业产品的整个寿命周期,包括从市场调研到售后服务的各个过程都需要适当运用数据分析,以提升数据分析的有效性,能够适时解决企业难题、识别机会、规避风险。

图:来源于网络

数据分析的作用及价值,可简单归纳总结为下面四个方面:

1.追溯过去,了解真相(识别机会、规避风险)

2.洞察本质,寻本溯源(诊断问题、亡羊补牢)

3.掌握规律,预测未来(评估效果、改进策略)

4.采取措施,驱动行动(提高效率、加强管理)

02

数据分析的三个常用方法

数据分析本身是一个非常大的领域,这里将主要讨论一下在企业产品整个寿命周期期间,3个常用的数据分析方法(想看数据分析常用算法的小伙伴可以点这里跳转)

数据趋势分析

数据对比分析

数据细分分析

趋势对比细分,基本包含了数据分析最基础的部分。无论是数据核实,还是数据分析,都需要不断地找趋势,做对比,做细分,才能得到最终有效的结论。

数据趋势分析

趋势分析一般而言,适用于产品核心指标的长期跟踪,比如产品点击率、活跃用户数等。简单的数据趋势图并不算是趋势分析,趋势分析更多的是需要明确数据的变化,以及对变化原因进行分析。

趋势分析,最好的产出是比值。在趋势分析的时候需要明确几个概念:环比,同比,定基比

环比指本期统计数据与上期比较,利用环比可以知道最近的变化趋势,但是有些数据可能会受季节、时间、地域等因素影响而产生差异。

为了消除差异,于是有了同比的概念,例如2019年2月份和2018年2月份进行比较。

定基比就是和某个基点进行比较,比如2018年1月作为基点,定基比则为2019年2月和2018年1月进行比较。

趋势分析另一个核心目的则是对趋势做出解释,对于趋势线中明显的拐点,发生了什么事情要给出合理的解释。

数据对比分析

很多时候单独看数据的趋势变化并不能说明问题,此时就需要给孤立的数据一个合理的参考系,否则孤立的数据毫无意义,这也是对比分析的意义所在。

一般而言,对比的数据是数据的基本面,比如行业情况,全站的情况等。

有的时候,在产品迭代测试的时候,为了增加说服力,会人为的设置对比的基准,也就是A/B test,比较试验最关键的是A/B两组只保持单一变量,其他条件保持一致,只有这样才能得到比较有说服力的数据。可以简单理解为样本数量为2的控制变量法。

数据细分分析

在得到一些初步结论后,就需要进一步对数据进行细拆,因为在一些综合指标的使用过程中,会抹杀一些关键的数据细节。

细分分析是一个非常重要的手段,多问一些为什么,才是得到结论的关键,而一步一步拆分,就是在不断问为什么的过程。

进行数据细分分析时,一定要进行多维度的细拆,可以包括但不限于:

分时:不同时间短数据是否有变化

分渠道:不同来源的流量或者产品是否有变化

分用户:新注册用户和老用户相比是否有差异,高等级用户和低等级用户相比是否有差异

分地区:不同地区的数据是否有变化

组成拆分:比如搜索由搜索词组成,可以拆分不同搜索词;店铺流量由不用店铺产生,可以分拆不同的店铺

03

大数据时代数据分析面临的挑战

大数据时代,数据分析技术的发展也并非一直顺风顺水,眼下可能会面临一些新的挑战,主要有以下几点:

1

数据量大并不一定意味着数据价值的增加,也有可能是意味着数据噪音的增多。

因此,在数据分析之前必须进行数据清洗等预处理工作,但是预处理如此大量的数据,对于计算资源和处理算法来讲都是非常严峻的考验。

2

大数据时代的算法需要进行调整。

大数据的应用常常具有实时性的特点,算法准确率不再是大数据应用的最主要指标。很多时候,算法需要在处理实时性和准确率之间博得一个平衡点。

其次,分布式并发计算系统是进行大数据处理的有力工具,这就要求很多算法必须做出调整以适应分布式并发的计算框架,算法需要变得具有可扩展性。许多传统的数据挖掘算法都是线性执行的,面对海量的数据很难在合理的时间内获取所需的结果。因此需要重新把这些算法实现成可以并发执行的算法,以便完成对大数据的处理。

最后,在选择处理大数据的算法时必须谨慎,当数据量增长到一定规模以后,可以从少量数据中挖掘出有效信息的算法并非一定适用大数据。

3

数据结果的衡量标准。

对大数据进行分析并非易事,同样的,对大数据分析结果好坏如何衡量也是大数据时代数据分析面临的更大挑战之一。

大数据时代的数据体量大、类型混杂、产生速度快,进行分析时如果没有对整个数据的分布特点了如指掌,无疑会导致在设计衡量的方法、指标时遇到困难。

企通查-企业大数据平台基于数据采集、特征提取、信息关联、机器学习和深度学习算法模型、NLP文本分析等先进技术,清晰构建企业全维度动态画像,通过企业风控指数、企业信用指数、企业活力指数三大指数模型体系和基于企业基本能力、创新能力、经营能力、核心能力、财务能力和风险能力六大方面的大数据风控体系,实现对企业和客户的全流程主动感知、重点监控、变动提醒和风险预警。此外,企通查还可以根据客户的不同需求定制所需的一系列企业数据。

相关文章

网友评论

      本文标题:数据分析:大数据处理的基本流程(三)

      本文链接:https://www.haomeiwen.com/subject/rdebvktx.html