大数据与数据挖掘学习规划

作者: yoku酱 | 来源:发表于2019-03-15 10:29 被阅读6次

本文结合了一些介绍大数据学习的热文，为大家汇总整理了大数据职业方向和技能的一些内容，如有需要修改和补充的，欢迎指正~

一、大数据相关工作介绍

大数据方向的工作目前主要分为三个主要方向：

大数据工程师

数据分析师

大数据科学家

其他（数据挖掘等）

附上大数据工程师技能图：

二、大数据应用的目标

要学好大数据，首先要明确大数据应用的目标，大数据就好比万金油，像百度几年前提的框计算，这个框什么都能往里装。为什么会这样，因为大数据这个框太大，其终极目标是利用一系列信息技术实现海量数据条件下的人类深度洞察和决策智能化，最终走向普适的人机智能融合!大数据应用的目标应该是普适智能。

这不仅是传统信息化管理的扩展延伸，也是人类社会发展管理智能化的核心技术驱动力。通过大数据应用，面向过去，发现数据规律，归纳已知;面向未来，挖掘数据趋势，预测未知。从而提高人们对事物的理解和决策处置能力，最终实现社会的普适智能。不管是商业智能，机器智能，人工智能，还是智能客服，智能问答，智能推荐，智慧医疗、智慧交通等相关技术和系统，其本质都是朝着这一目标在演进。随着云计算平台和大数据技术的高速发展，获得大数据基础设施建设相关技术和支持越来越容易。同时，移动互联网和物联网技术所具备的全面数据采集能力，客观上促进了大数据的积累和爆发。

典型的数据科学过程：包括原始数据采集，数据预处理和清洗，数据探索式分析，数据计算建模，数据可视化和报表，数据产品和决策支持等。

三.大数据要怎么学：数据科学特点与大数据学习误区

(1)大数据学习要业务驱动，不要技术驱动：数据科学的核心能力是解决问题。

大数据的核心目标是数据驱动的智能化，要解决具体的问题，不管是科学研究问题，还是商业决策问题，抑或是政府管理问题。

所以学习之前要明确问题，理解问题，所谓问题导向、目标导向，这个明确之后再研究和选择合适的技术加以应用，这样才有针对性，言必hadoop,spark的大数据分析是不严谨的。

不同的业务领域需要不同方向理论、技术和工具的支持。如文本、网页要自然语言建模，随时间变化数据流需要序列建模，图像音频和视频多是时空混合建模;大数据处理如采集需要爬虫、倒入导出和预处理等支持，存储需要分布式云存储、云计算资源管理等支持，计算需要分类、预测、描述等模型支持，应用需要可视化、知识库、决策评价等支持。所以是业务决定技术，而不是根据技术来考虑业务，这是大数据学习要避免的第一个误区。

(2)大数据学习要善用开源，不要重复造轮子：数据科学的技术基因在于开源。IT前沿领域的开源化已成不可逆转的趋势，Android开源让智能手机平民化，让我们跨入了移动互联网时代，智能硬件开源将带领跨入物联网时代，以Hadoop和Spark为代表的大数据开源生态加速了去IOE(IBM、ORACLE、EMC)进程，倒逼传统IT巨头拥抱开源，谷歌和OpenAI联盟的深度学习开源(以Tensorflow,Torch,Caffe等为代表)正在加速人工智能技术的发展。

数据科学的标配语言R和Python更是因开源而生，因开源而繁荣，诺基亚因没把握开源大势而衰落。为什么要开源，这得益于IT发展的工业化和构件化，各大领域的基础技术栈和工具库已经很成熟，下一阶段就是怎么快速组合、快速搭积木、快速产出的问题，不管是linux,anroid还是tensorflow，其基础构件库基本就是利用已有开源库，结合新的技术方法实现，组合构建而成，很少在重复造轮子。

(3)大数据学习要以点带面，不贪大求全：数据科学要把握好碎片化与系统性。根据前文的大数据技术体系分析，我们可以看到大数据技术的深度和广度都是传统信息技术难以比拟的。

何为碎片化，这个碎片化包括业务层面和技术层面，大数据不只是谷歌，亚马逊，BAT等互联网企业，每一个行业、企业里面都有它去关注数据的痕迹：一条生产线上的实时传感器数据，车辆身上的传感数据，高铁设备的运行状态数据，交通部门的监控数据，医疗机构的病例数据，政府部门的海量数据等等，大数据的业务场景和分析目标是碎片化的，而且相互之间分析目标的差异很大;另外，技术层面来讲，大数据技术就是万金油，一切服务于数据分析和决策的技术都属于这个范畴，其技术体系也是碎片化的。

(4)大数据学习要勇于实践，不要纸上谈兵：数据科学还是数据工程?

大数据只有和特定领域的应用结合起来才能产生价值，数据科学还是数据工程是大数据学习要明确的关键问题，搞学术发paper数据科学OK，但要大数据应用落地，如果把数据科学成果转化为数据工程进行落地应用，难度很大，这也是很多企业质疑数据科学价值的原因。且不说这种转化需要一个过程，从业人员自身也是需要审视思考的。

目前数据工程要解决的关键问题主线是数据(Data)>知识(Knowledge)>服务(Service)，数据采集和管理，挖掘分析获取知识，知识规律进行决策支持和应用转化为持续服务。解决好这三个问题，才算大数据应用落地，那么从学习角度讲，DWS就是大数据学习要解决问题的总目标，特别要注重数据科学的实践应用能力，而且实践要重于理论。从模型，特征，误差，实验，测试到应用，每一步都要考虑是否能解决现实问题，模型是否具备可解释性，要勇于尝试和迭代，模型和软件包本身不是万能的，大数据应用要注重鲁棒性和实效性，温室模型是没有用的，训练集和测试集就OK了吗?

四、大数据学习的三个阶段

不同阶段的技术路线各有侧重，把握主要矛盾。在大数据应用实施过程中，由于技术和成本考虑，不可能短时间内解决所有问题，大数据应用本身有其规律和特点，比如分析目标一定是要跟数据规模匹配，分析技术的采用取决于数据结构和数据源条件，数据集成一定要覆盖比较全面的业务背景，关键环节数据不能有缺失等等。大数据学习可以根据应用目标分三个阶段：

大数据基础设施建设阶段：这个阶段的重点是把大数据存起来，管起来，能用起来，同时要考虑大数据平台和原有业务系统的互通联合问题。一句话，做好全局数据集成解决数据孤岛问题!要完成大数据基础设施系统建设开发，需要明确数据采集、存储和分析各层核心组件的选型和使用，搭建稳定的大数据集群，或选择私有云方案的服务集群，与生产系统并线运行，使待分析的历史数据和实时数据得以采集并源源不断流入大数据系统。这个阶段的关键技术学习包括采集爬虫、数据接口、分布式存储、数据预处理ETL、数据集成、数据库和数据仓库管理、云计算和资源调度管理等等内容。

大数据描述性分析阶段：此阶段主要定位于离线或在线对数据进行基本描述统计和探索式可视化分析，对管理起来的大数据能进行海量存储条件下的交互式查询、汇总、统计和可视化，如果建设了BI系统的，还需整合传统BI技术进行OLAP、KPI、Report、Chart、Dashboard等分析和初步的描述型数据挖掘分析。这个基础分析阶段是对数据集成质量的检验，也是对海量数据条件下的分布式存储管理技术应用稳定性的测试，同时要能替代或集成传统BI的各类报表。这个阶段的关键技术学习包括可视化、探索式交互式分析、多维分析、各类基本报表和图表的查询设计等等。

大数据高级预测分析和生产部署阶段：在初步描述分析结果合理，符合预期目标，数据分布式管理和描述型分析稳定成熟的条件下，可结合进一步智能化分析需求，采用如深度学习等适用海量数据处理的机器学习模型，进行高级预测性挖掘分析。并通过逐步迭代优化挖掘模型和数据质量，形成稳定可靠和性能可扩展的智能预测模型，并在企业相关业务服务中进行分析结果的决策支持，进行验证、部署、评估和反馈。这个阶段的关键技术包括机器学习建模、决策支持、可视化、模型部署和运维等。

在上述几个阶段的技术学习过程中，需要注意几个关键问题：

一是重视可视化和业务决策，大数据分析结果是为决策服务，而大数据决策的表现形式，可视化技术的优劣起决定性作用;

二是问问自己，Hadoop、Spark等是必须的吗?要从整个大数据技术栈来考虑技术选型和技术路线的确定;

三是建模问题处于核心地位，模型的选择和评估至关重要，在课堂和实验室中，多数模型的评估是静态的，少有考虑其运行速度、实时性及增量处理，因此多使用复杂的臃肿模型，其特征变量往往及其复杂。而Kaggle竞赛中的各种Boost方法，XGBDT、随机森林等模型，在数据挖掘和机器学习教材中却少有提及，所以要充分参考业界实战经验不能尽信书;

四是开发语言的选择，基础框架系统Java是必须掌握的，应用级的机器学习和数据分析库Python是必须掌握的，而要深入各种框架和学习库的底层，C++是必须掌握的;五是模型的产品化，需要将实际数据通过管道设计转换为输入特征传递给模型，如何最小化模型在线上和线下的表现差距，这些都是要解决关键的问题。

如果你想从事数据挖掘，你必须具备：

数据挖掘模型、算法的数学知识以及一些数据分析软件（SPSS、SAS、matlab、clementine），一些数据库相关的知识（oracle、mySQL）

了解市场、其它部门需求。当然这些都是一点一滴积累起来的，没必要一蹴而就，特别是对市场、行业的了解以及对公司其它部门的需求的理解非常重要，这决定了你能否从基础的分析人员上升到产品层、决策层，都是要在实际的工作中积累起来的。