随着世界进入大数据时代,对其存储的需求也在增长。直到2010年,它一直是企业行业面临的主要挑战和关注点。主要重点是构建用于存储数据的框架和解决方案。现在,当Hadoop和其他框架成功解决存储问题时,重点就转移到了处理这些数据上。数据科学是这里的秘诀。您在好莱坞科幻电影中看到的所有想法实际上都可以通过数据科学变成现实。数据科学是人工智能的未来。因此,了解什么是数据科学以及如何为您的业务增加价值非常重要。
在此博客中,我将介绍以下主题。
对数据科学的需求。
什么是数据科学?
它与商业智能(BI)和数据分析有何不同?
借助用例,数据科学的生命周期。到本博客结束时,您将能够理解什么是数据科学及其在从我们周围的复杂和大型数据集中提取有意义的见解中的作用。
让我们了解为什么我们需要数据科学
传统上,我们拥有的数据大多是结构化的,而且规模较小,可以使用简单的BI工具进行分析。与传统的系统中大多数数据是结构化的数据不同,如今大多数数据是非结构化或半结构化的。让我们看看下图中的数据趋势,该趋势表明,到2020年,将有80%以上的数据是非结构化的。
此数据是从不同来源生成的,例如财务日志,文本文件,多媒体表格,传感器和工具。简单的BI工具无法处理如此庞大的数据量。这就是为什么我们需要更复杂和高级的分析工具和算法来处理,分析和汲取有意义的见解的原因。
这不是数据科学如此受欢迎的唯一原因。让我们更深入地了解数据科学如何在各个领域中使用。
如何从现有数据(例如客户的过去浏览历史,购买历史,年龄和收入)中了解客户的确切要求,该怎么办?毫无疑问,您也早先拥有了所有这些数据,但是现在有了大量和各种各样的数据,您可以更有效地训练模型,并以更高的精度向客户推荐产品。因为它将为您的组织带来更多业务,这会令人惊讶吗?
让我们采用另一种情况来了解数据科学在决策中的作用。如果您的汽车具有将您开车回家的智能,该怎么办?自动驾驶汽车从传感器收集实时数据,包括雷达,摄像机和激光,以绘制周围环境的地图。基于这些数据,它可以使用先进的机器学习算法来做出决策,例如何时加速,何时减速,何时超车,何时转向。
让我们看看如何在预测分析中使用数据科学。让我们以天气预报为例。可以收集并分析来自船舶,飞机,雷达,卫星的数据,以建立模型。这些模型不仅可以预测天气,而且可以预测任何自然灾害的发生。它将帮助您事先采取适当措施并挽救许多宝贵的生命。
让我们看一下下面的信息图,以查看Data Science为其创造印象的所有领域。
现在您已经了解了数据科学的需求,让我们了解什么是数据科学。
什么是数据科学?
术语“数据科学”的使用越来越普遍,但是它的确切含义是什么?您需要什么技能才能成为数据科学家? BI和数据科学之间有什么区别?数据科学如何做出决策和预测?这些是将进一步回答的一些问题。
首先,让我们看看什么是数据科学。数据科学融合了各种工具,算法和机器学习原理,旨在从原始数据中发现隐藏的模式。这与统计学家多年来所做的有何不同?
答案在于解释和预测之间的差异。
从上图可以看到,Data Analyst通常通过处理数据的历史来解释发生了什么。另一方面,数据科学家不仅进行探索性分析以从中发现见解,而且还使用各种先进的机器学习算法来识别将来特定事件的发生。数据科学家会从多个角度(有时是以前未知的角度)查看数据。
因此,数据科学主要用于通过预测因果分析,说明性分析(预测性与决策科学)和机器学习来做出决策和预测。
预测因果分析–如果您需要一个可以预测未来特定事件可能性的模型,则需要应用预测因果分析。假设,如果您要提供信贷,那么客户按时还款的可能性就值得您关注。在这里,您可以构建一个模型,该模型可以对客户的付款历史记录执行预测分析,以预测将来的付款是否按时进行。
规范分析:如果您想要一个具有自行决策能力并能够使用动态参数进行修改的模型,那么您当然需要对其进行规范分析。这个相对较新的领域就是提供建议。换句话说,它不仅可以预测,而且可以建议一系列规定的动作和相关的结果。
最好的例子是Google的自动驾驶汽车,我之前也曾讨论过。车辆收集的数据可用于训练自动驾驶汽车。您可以在此数据上运行算法以为其带来智能。这将使您的汽车能够做出决定,例如何时转弯,走哪条道路,何时减速或加速。
机器学习来进行预测-如果您拥有金融公司的交易数据,并且需要建立模型来确定未来趋势,那么机器学习算法是最好的选择。这属于监督学习的范式。之所以称为有监督的,是因为您已经有了可以训练机器的基础数据。例如,可以使用欺诈性购买的历史记录来训练欺诈性检测模型。
用于模式发现的机器学习-如果您没有可用于进行预测的基础参数,那么您需要找出数据集中的隐藏模式以进行有意义的预测。这就是无人监督的模型,因为您没有任何用于分组的预定义标签。模式发现最常用的算法是聚类。
假设您在一家电话公司中工作,并且需要通过在某个区域放置信号塔来建立网络。然后,您可以使用聚类技术找到那些信号塔位置,以确保所有用户都能获得最佳信号强度。
让我们看看上述方法在数据分析和数据科学中所占的比例有何不同。如下图所示,数据分析在一定程度上包括描述性分析和预测。另一方面,数据科学更多地涉及预测因果分析和机器学习。
我相信您可能也听说过商业智能(BI)。数据科学常常与BI混淆。我将陈述两者之间的简洁明了的对比,这将有助于您更好地理解。我们来看一下。
商业智能(BI)与数据科学
BI基本上会分析先前的数据,以找到事后的见解和见解来描述业务趋势。 BI使您能够从外部和内部来源获取数据,进行准备,在其上运行查询以及创建仪表板来回答诸如季度收入分析或业务问题之类的问题。 BI可以在不久的将来评估某些事件的影响。
数据科学是一种更具前瞻性的方法,是一种探索性方法,重点在于分析过去或当前数据并预测未来结果,以做出明智的决策。它回答了有关“什么”和“如何”事件发生的开放式问题。
让我们看一些对比功能。
这就是什么是数据科学,现在让我们了解数据科学的生命周期。
数据科学项目中的一个常见错误是在不了解需求甚至无法正确地构架业务问题的情况下匆匆进入数据收集和分析。因此,对于您而言,在数据科学的整个生命周期中遵循所有阶段以确保项目的顺利运行非常重要。
数据科学的生命周期
以下是数据科学生命周期主要阶段的简要概述:
第1阶段-发现:在开始项目之前,了解各种规格,要求,优先级和所需预算很重要。您必须具备提出正确问题的能力。在这里,您可以评估您是否在人力,技术,时间和数据方面都具备支持项目所需的资源。在此阶段,您还需要确定业务问题并制定初步假设(IH)进行测试。
第2阶段-数据准备:在此阶段,您需要分析沙箱,您可以在其中对项目的整个持续时间进行分析。您需要在建模之前浏览,预处理和调整数据。此外,您将执行ETLT(提取,转换,加载和转换)以将数据获取到沙箱中。让我们看一下下面的统计分析流程。
您可以使用R进行数据清理,转换和可视化。这将帮助您发现异常值并在变量之间建立关系。清理并准备好数据后,就该对数据进行探索性分析了。让我们看看如何实现这一目标。
第3阶段-模型规划:数据科学模型规划-Edureka在这里,您将确定绘制变量之间关系的方法和技术。这些关系将为您将在下一阶段实现的算法奠定基础。您将使用各种统计公式和可视化工具来应用探索性数据分析(EDA)。
让我们看一下各种模型规划工具。
R具有完整的建模功能,并为构建解释模型提供了良好的环境。
SQL Analysis Services可以使用常见的数据挖掘功能和基本预测模型来执行数据库内分析。
SAS / ACCESS可用于从Hadoop访问数据,并用于创建可重复和可重用的模型流程图。
尽管市场上有很多工具,但是R是最常用的工具。
现在,您已经洞悉了数据的性质,并决定了要使用的算法。在下一阶段,您将应用算法并建立模型。
阶段4-模型构建:在此阶段中,您将开发用于训练和测试目的的数据集。您将考虑您现有的工具是否足以运行模型,或者是否需要更强大的环境(例如快速和并行处理)。您将分析各种学习技术,例如分类,关联和聚类以构建模型。
您可以通过以下工具实现模型构建。
阶段5-操作化:数据科学的操作-Edureka在此阶段,您将提供最终报告,简介,代码和技术文档。此外,有时还会在实时生产环境中实施试点项目。在全面部署之前,这将为您提供小规模的性能和其他相关约束的清晰画面。
数据科学中的交流-Edureka阶段6-传递结果:现在,重要的是评估您是否能够实现您在第一阶段中计划的目标。因此,在最后一个阶段中,您将确定所有关键发现,与利益相关者进行交流,并根据第1阶段中制定的标准确定项目的结果是成功还是失败。
网友评论