大数据技术原理——Hive

作者: 是蓝先生 | 来源:发表于2016-09-20 20:29 被阅读811次
(1)Hive的基本介绍

**
**


1.png
(2)Hive与传统数据库的区别

Hive不支持数据的更新,,也不支持事务和索引,只能只读
不能秒级响应,只能分钟级响应;


2.png
(3)Hive在企业分析平台中的应用

Hive一般用于报表中心;
Mahout是基于hadoop的开源插件,已经实现了各种机器学习、数据挖掘算法,所以能够帮助企业快速建立业务模型支持BI(商务智能)。

3.png
(4)Hive具体操作
  • hive数据与关系型数据库之间的传输用sqoop开源工具。

  • hadoop start-dfs.sh的作用在于启动主节点的namenode,启动secondnamenode,以及各从节点的datanode进程。

  • man 5 passwd 表示显示passwd文件的结构,这是LINUX操作系统语言

  • select--from--where--group by--having--order by其中select和from是必须的,其他关键词是可选的,这六个关键词的执行顺序与sql语句的书写顺序并不是一样的,而是按照下面的顺序来执行:
    from--where--group by--having--select--order by,
    在写SQL文的时候,尽量把数据量大的表放在最右边来进行关联。

  • hadoop集群的几种运行模式:单机(本地)模式;伪分布式模式;全分布式模式(中心版)。

  • mysql中如何整理表数据文件的碎片:OPTIMIZE TABLE table_name。

  • 在HDFS中,所有的文件都是以block块的概念而存在的,那么在这样海量的文件数据的情况下,难免会发生一些文件块损坏的现象,可以使用HDFS的fsck相关的命令去发现。

  • hive上查看hive执行计划的命令:explain

相关文章

  • 总结:Hive,Hive on Spark和SparkSQL区别

    Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一...

  • 大数据技术原理——Hive

    (1)Hive的基本介绍 **** (2)Hive与传统数据库的区别 Hive不支持数据的更新,,也不支持事务和索...

  • hive部署的3种模式,及应用差异

    1、hive的技术原理 hive是基于Hadoop的数据仓库系统,可以查询、分析和存储在HDFS 分布式文件系统中...

  • hive介绍

    大数据时代的技术hive:hive介绍

  • Hive - 总结

    0.补充 0.1 什么是hive 0.2 优缺点 0.3 Hive架构原理 0.4 hive与数据库的比较 由于 ...

  • Hive技术初探

    1 概述 1.1 基本介绍 1.2 技术比较 Hive与传统数据库比较Hive与传统数据库比较 Hive与Hbas...

  • 大数据开发:Hive小文件合并

    Hadoop生态技术体系下,负责大数据存储管理的组件,涉及到HDFS、Hive、Hbase等。Hive作为数据仓库...

  • Hive的入门知识

    Hive是什么? Hive是一种基于Hadoop的数据库技术并提供完整的sql查询功能, . HIVE能做什么? ...

  • 数据仓库工具Hive

    数据仓库工具Hive Hive产生背景 直接使用MapReduce处理大数据,问题: MapReduce开放难度大...

  • Hive原理及SQL优化

    1.Hive原理 Hive是构建在Hadoop上的数据仓库软件框架,支持使用SQL来读,写和管理大规模数据集合。H...

网友评论

    本文标题:大数据技术原理——Hive

    本文链接:https://www.haomeiwen.com/subject/jgqoettx.html