美文网首页大数据开发
[SQL]Crunch简化MR开发(与 Pig 和 Hive 一

[SQL]Crunch简化MR开发(与 Pig 和 Hive 一

作者: 葡萄喃喃呓语 | 来源:发表于2016-10-22 15:05 被阅读7次

Apache Crunch——简化 MapReduce 开发
http://www.ibm.com/developerworks/cn/opensource/os-cn-apache-crunch/index.html
与 Pig 和 Hive 一样,Crunch 是为了降低 MapReduce 的入门成本。它们的区别是:Pig 是一个基于管道的框架,而 Crunch 则是一个 Java 库,它提供比 Pig 更高级别的灵活性。

它的特点
1.面向开发人员
Hive 和 Pig 为 Java 编程经验欠缺的程序员来建立 MapReduce。Apache Crunch 为那些熟悉 Java 开发的开发者提供更有效率的 MapReduce 开发方式。Crunch 经常和 Hive 或 Pig 联合使用,一个典型的场景是:开发团队使用 Apache Crunch 管道将一些用户日志 Sessionizes 化,将结果传递给不同的 Pig 脚本或 Hive 查询用于分析。
2.最小限度的抽象
Apache Crunch 设计为 MapReduce 之上的一个薄层,开发者可以在任何时候选择使用 MapReduce 的 API。这种极简的设计理念意味着 Apache Crunch 非常快,仅仅会比优化过的 MapReduce API 慢一些。Apache 社区一直致力于优化它的运行效率。Apache Crunch 的另一个目标是可移植性,Apache Crunch 用于减少将 Hadoop 1.0 移植到 Hadoop 2.0 的工作量。
3.灵活的数据模型
Pig、Hive 都使用一种基于元组的数据模型,当输入数据可以被表示成一些标量值的集合时,类似数据库中的行。这个类数据模型会工作的很好。Apache Crunch 给予开发者更灵活表示数据模型的选择,使用 Apache Crunch 可以和复杂的数据结构如 Apache Avro records 或 protocol buffers 等交互。

相关文章

  • [SQL]Crunch简化MR开发(与 Pig 和 Hive 一

    Apache Crunch——简化 MapReduce 开发http://www.ibm.com/develope...

  • spark SQL 1.基本操作

    1. 进化史 Spark SQL用于结构化数据处理。Hive:SQL简化了MR操作(on HDFS) 。Shark...

  • Pig介绍和相对于Hive的优势

    我们都知道pig和hive的作用是一致的都是为了简化mapReduce的编程而开发的,但是hive是过程化语言SQ...

  • Oozie-Workflow 组件

    概念定义 Action: 具体的可执行任务(比如MR、Hive、Pig 和shell命令) Workflow: 任...

  • Hive Sql优化记录

    日常检查ETLjob时发现一段sql采用hive on mr执行比hive on spark要快70%,与正常的认...

  • oozienote

    1/oozie 支持 hadoop mr spark hive pig java sh DAG有向无环图2/ ...

  • hive面试题

    1、hive是什么? 本质是将sql转换成mr程序。 2、hive的架构? 客户端:CLI(shell命令...

  • HIVE SQL与MR对应关系

    MapReducesql备注inputfrommapwhere[select 字段 ] \joinshuffleg...

  • hive

    Hive 是一个SQL 解析引擎,将SQL语句转译成MR Job,然后再hadoop上运行,达到快速 mysql是...

  • Hive基础重点知识+优化(个人总结)

    Hive基础 Hive简介:(1)hql相对于MR程序没有复杂的代码,上手简单,会写sql的同学,hql也不在...

网友评论

    本文标题:[SQL]Crunch简化MR开发(与 Pig 和 Hive 一

    本文链接:https://www.haomeiwen.com/subject/fvkhuttx.html