大数据处理和分析的新方法
存在多种方法处理和分析大数据,但多数都有一些共同的特点。即他们利用硬件的优势,使用扩展的、并行的处理技术,采用非关系型数据存储处理非结构化和半结构化数据,并对大数据运用高级分析和数据可视化技术,向终端用户传达见解。
什么是Hadoop?
Hadoop是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。
最初由雅虎的Doug Cutting创建,Hadoop的灵感来自于 MapReduce ,MapReduce是谷歌在2000年代初期开发的用于网页索引的用户定义函数。它被设计用来处理分布在多个并行节点的PB级和EB级数据。Hadoop集群运行在廉价的商用硬件上,这样硬件扩展就不存在资金压力。Hadoop现在是Apache软件联盟(The Apache Software Foundation)的一个项目,数百名贡献者不断改进其核心技术。
基本概念:与将海量数据限定在一台机器运行的方式不同,Hadoop将大数据分成多个部分,这样每个部分都可以被同时处理和分析。
Hadoop的技术组件
Hadoop “栈”由多个组件组成。包括:
· Hadoop分布式文件系统(HDFS):所有Hadoop集群的默认存储层;
· 名称节点:在Hadoop集群中,提供数据存储位置以及节点失效信息的节点。
· 二级节点:名称节点的备份,它会定期复制和存储名称节点的数据,以防名称节点失效。
· 作业跟踪器:Hadoop集群中发起和协调MapReduce作业或数据处理任务的节点。
· 从节点:Hadoop集群的普通节点,从节点存储数据并且从作业跟踪器那里获取数据处理指令。
除了上述以外,Hadoop生态系统还包括许多免费子项目。
NoSQL数据存储系统(如Cassandra和HBase)也被用于存储Hadoop的MapReduce作业结果。
除了Java,很多 MapReduce 作业及其他Hadoop的功能都是用Pig语言写的,Pig是专门针对Hadoop设计的开源语言。Hive最初是由Facebook开发的开源数据仓库,可以在Hadoop中建立分析模型。
大数据:实际使用案例
让Hadoop和其他大数据技术如此引人注目的部分原因是,他们让企业找到问题的答案,而在此之前他们甚至不知道问题是什么。它们包括:
推荐引擎:网络资源和在线零售商使用Hadoop根据用户的个人资料和行为数据匹配和推荐用户、产品和服务。LinkedIn使用此方法增强其“你可能认识的人”这一功能,而亚马逊利用该方法为网上消费者推荐相关产品。
情感分析: Hadoop与先进的文本分析工具结合,分析社会化媒体和社交网络发布的非结构化的文本,包括Tweets和Facebook,以确定用户对特定公司,品牌或产品的情绪。分析既可以专注于宏观层面的情绪,也可以细分到个人用户的情绪。
风险建模: 财务公司、银行等公司使用Hadoop和下一代数据仓库分析大量交易数据,以确定金融资产的风险,模拟市场行为为潜在的“假设”方案做准备,并根据风险为潜在客户打分。
欺诈检测: 金融公司、零售商等使用大数据技术将客户行为与历史交易数据结合来检测欺诈行为。例如,信用卡公司使用大数据技术识别可能的被盗卡的交易行为。
营销活动分析:各行业的营销部门长期使用技术手段监测和确定营销活动的有效性。大数据让营销团队拥有更大量的越来越精细的数据,如点击流数据和呼叫详情记录数据,以提高分析的准确性。
客户流失分析: 企业使用Hadoop和大数据技术分析客户行为数据并确定分析模型,该模型指出哪些客户最有可能流向存在竞争关系的供应商或服务商。企业就能采取最有效的措施挽留欲流失客户。
社交图谱分析: Hadoop和下一代数据仓库相结合,通过挖掘社交网络数据,可以确定社交网络中哪些客户对其他客户产生最大的影响力。这有助于企业确定其“最重要”的客户,不总是那些购买最多产品或花最多钱的,而是那些最能够影响他人购买行为的客户。
用户体验分析: 面向消费者的企业使用Hadoop和其他大数据技术将之前单一 客户互动渠道(如呼叫中心,网上聊天,微博等)数据整合在一起, ,以获得对客户体验的完整视图。这使企业能够了解客户交互渠道之间的相互影响,从而优化整个客户生命周期的用户体验。
网络监控:Hadoop 和其他大数据技术被用来获取,分析和显示来自服务器,存储设备和其他IT硬件的数据,使管理员能够监视网络活动,诊断瓶颈等问题。这种类型的分析,也可应用到交通网络,以提高燃料效率,当然也可以应用到其他网络。
研究与发展: 有些企业(如制药商)使用Hadoop技术进行大量文本及历史数据的研究,以协助新产品的开发。
当然,上述这些都只是大数据用例的举例。事实上,在所有企业中大数据最引人注目的用例可能尚未被发现。这就是大数据的希望。
网友评论