美文网首页大数据程序员
HDFS集中式缓存管理

HDFS集中式缓存管理

作者: 明明德撩码 | 来源:发表于2018-02-26 17:57 被阅读129次

Hadoop从2.3.0版本开始支持HDFS缓存机制,HDFS允许用户将一部分目录或文 件缓存在HDFS当中,NameNode会通知拥有对应块的DataNodes将其缓存在
DataNode的内存当中。

优势

  • 防止那些被频繁使用的数据从内存中清除
  • 因为DataNode的缓存由NameNode来管理,applications在做任务安排时可以查询这个缓 存的列表,使用一个被缓存的块副本能够提高读性能
  • 当块被DataNode缓存之后,客户端可以使用一个新的、高效的、zero-copy的读API,因 为缓存中的数据已经被计算过checksum,当使用新API时,客户端基本上是零开销的
  • 可以提高集群的内存利用率。当使用操作系统的缓存时,对一个块的重复读会导致所有 的副本都会被放到缓冲区当中,当使用集中式缓存时,用户可以指定n个副本中的m个 才会被缓存,可以节约n-m的内存

使用场景

  • 集中式缓存对那些频繁访问的的文件是非常有用的,例如hive中经常被使用的fact表就 非常适合缓存
  • 另一方面,缓存一年的查询结果可能没那么有用了,因为这个结果可能只会被查看一次
    有助于提高混合类型作业的SLA性能,把高优先级的数据缓存起来可以确保它不会与低 优先级的数据竞争磁盘IO

命令行

image.png

相关文章

  • HDFS集中式缓存管理

    Hadoop从2.3.0版本开始支持HDFS缓存机制,HDFS允许用户将一部分目录或文 件缓存在HDFS当中,Na...

  • 多级缓存之二:本地缓存Guava

    接上一篇Redis集中式缓存应用,作为缓存的数据库中间件redis的集中式缓存管理。下面使用Guava进行热点数据...

  • HDFS缓存管理

    官方文档:http://hadoop.apache.org/docs/current/hadoop-project...

  • Hadoop 集中式的缓存管理demo

    参考文献: http://www.infoq.com/cn/articles/hdfs-centralized-c...

  • [Springboot]SpringCache + Redis实

    前言 本文实现了SpringCache + Redis的集中式缓存,方便大家对学习了解缓存的使用。 本文实现: S...

  • git的使用

    项目管理分为集中式和分布式管理 集中式:(SVN为集中式) 分布式:(git为分布式) 使用步骤: 1、初始化版本...

  • git 小札 - 流程总览

    集中式版本管理(subversion)和分布式版本管理(git)的差异 集中式版本管理主要以文件变更列表的方式存储...

  • svn

    集中式代码管理软件

  • git学习笔记

    集中式和分布式的区别 git是分布式版本控制。与分布式相对应的就是集中式,SVN就是集中式的管理。 集中式 集中式...

  • [译]HDFS的中心化缓存 (Centralized Cache

    原文 概览 HDFS上的中心化缓存是一个显式的缓存机制, 使得用户可以指定哪个路径被缓存. Namenode和拥有...

网友评论

    本文标题:HDFS集中式缓存管理

    本文链接:https://www.haomeiwen.com/subject/oqoyxftx.html