什么是大数据？

针对大数据的定义有很多种，总结一下，大数据是指在海量或者多样化的数据中快速提取有价值的信息的技术，大数据的特点可以总结为4V，volume（海量）、velocity（快速）、variety（多样性）、value（有价值）。

为什么要用大数据技术

数据具有客观性，从古至今，我们都在从数据的规律中提前预测未来，比如谚语“八月十五云遮月，正月十五雪打灯”，说明大自然中就有许多规律性的东西，估计现在的科学也没有办法解释几乎半年跨度内气象间的因果关系，但是几千年的观察和积累却发现了它。自然、社会、商业无不服从某些规律，大国兴衰、王朝更替亦有规律可循。只是过去囿于技术条件人们无法记录下造成某件事情发生的先兆数据，如今互联网技术的发展，云计算、物联网的兴起，都为大数据技术的崛起创造了有利条件，我们可以轻松地记录各类数据，对数据进行分析，从而得出有价值的决策的信息。数据已经变成一种资产，拥有数据的企业/组织也就掌握了未卜先知的能力。

如何使用大数据技术

泛互联范式是目前为止，实现大数据战略的最佳实践。在泛互联范式中，强调终端、平台、应用“三位”加上大数据这“一体”，这四个方面都可以成为盈利的主要来源，但需要明确，主要靠哪部分盈利。
围绕数据资产，有6种商业模式：

租售数据：即出售广泛收集、精心过滤、时效性强的数据。
租售信息：一般聚焦某个行业，广泛收集相关数据，深度整合萃取信息，加上专用传播渠道，进行盈利
数字媒体服务：获得及时、海量有效的数据，进行精准营销和信息聚合
数据使能：通过在线分析交易数据、财务数据，预判未来交易量和财务风险
数据空间：比如网盘
大数据技术提供商：比如语音数据处理、视频数据处理、语义识别、图像数据处理

大数据项目结构

Hadoop是大数据项目中广泛使用的开源分布式计算平台，它的核心是HDFS（Hadoop Distributed File System）和MapReduce。HDFS具有高容错性，并且是基于Java语言开发，这使得Hadoop可以部署在低廉的计算机集群中，同时不限于某个操作系统；MapReduce用于整合分布式文件系统上的数据，保证高速分析处理数据。
常见的Hadoop项目结构图如下：

图1-1 Hadoop项目结构图

大数据工具

Common：Common是为Hadoop其他子项目提供支持的常用工具，它主要包括FileSystem、RPC和串行化库。它们为在廉价硬件上搭建云计算环境提供基本的服务，并且会为运行在该平台上的软件开发提供所需的API。
Avro: Avro是用于数据序列化的系统。它提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能。
MapReduce：MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。映射（Map)、化简（Reduce）的概念和它们的主要思想都是从函数式编程语言中借鉴而来。它极大地方便了编程人员--即使在不了解分布式并行编程的情况下，也可以将自己的程序运行在分布式系统上。
HDFS: HDFS是一个分布式文件系统。因为HDFS具有高容错性的特点，所以它可以设计部署在低廉的硬件上。
Chukwa: Chukwa是开源的数据收集系统，用于监控和分析大型分布式系统的数据。Chukwa是在Hadoop的HDFS和MapReduce框架之上搭建的，它继承了Hadoop的可扩展性和健壮性。Chukwa通过HDFS来存储数据，并依赖MapReduce任务处理数据。
Hive: Hive是一个建立在Hadoop基础之上的数据仓库，它提供了一些用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储的工具。
HBase: Hbase是一个分布式的、面向列的开源数据库。Hbase是一个适合于非结构化数据存储的数据库，且Hbase是基于列而不是基于行的模式。
Pig: Pig是一个对大型数据集进行分析、评估的平台。Pig最突出的优势是它的结构能够经受住高度并行化的检验，这个特性使得它能够处理大型的数据集。
ZooKeeper: ZooKeeper是一个为分布式应用所设计的开源协调服务。它主要为用户提供同步、配置管理、分组和命名等服务，减轻分布式应用程序所承担的协调任务。