sqoop介绍

作者: 喝奶茶不加奶茶 | 来源:发表于2020-08-04 17:38 被阅读0次

sqoop:SQL-to-Hadoop

  • 是连接传统关系型数据库和Hadoop的工具
  • Sqoop是一个转换工具,用在关系型数据库与Hive等之间进行数据转换。


相关知识:

  • Hadoop是什么?
    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
    作用:用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。
    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。
    Hadoop的框架最核心的设计就是:HDFS和MapReduce,其中,HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。
  • hive和hadoop
    先了解下hive的特性
    (1)hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
    (2)Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
    hive和关系型数据库的区别
    (1)hive和关系数据库存储文件的系统不同,hive使用的是hadoop的HDFS(hadoop的分布式文件系统),关系数据库则是服务器本地的文件系统;
    (2)hive使用的计算模型是mapreduce,而关系数据库则是自己设计的计算模型;
    (3)关系数据库都是为实时查询的业务进行设计的,而hive则是为海量数据做数据挖掘设计的,实时性很差;实时性的区别导致hive的应用场景和关系数据库有很大的不同;
    (4)Hive很容易扩展自己的存储能力和计算能力,这个是继承hadoop的,而关系数据库在这个方面要比数据库差很多。

hive和hadoop
Hadoop

相关文章

网友评论

    本文标题:sqoop介绍

    本文链接:https://www.haomeiwen.com/subject/mjtprktx.html