[Hermes]实时检索分析平台_腾讯大数据

作者: 葡萄喃喃呓语 | 来源:发表于2016-10-23 13:07 被阅读313次

[Hermes]实时检索分析平台_腾讯大数据
Elasticsearch5.6搭建及拼音中文混合搜索实现
Hermes分享
Elasticsearch 基础
整理的比较全面的面试题（三）
ElasticSearch入门
ELK Stack
ES简介
elasticsearch入门
腾讯游戏实时计算应用平台建设实践

HERMES首页、文档和下载 - 搜索引擎 - 开源中国社区
https://www.oschina.net/p/hermes
Hermes 的出现，并不是为了替代 Solr、ES 的，就像 ES 的出现并不是为了干掉 Oracle 和 MySQL 一样,而是为了满足不同层面的需求。

Hermes 使用特点：

一个基于大索引技术的海量数据实时检索分析平台。侧重数据分析。
数据规模从几亿到万亿不等。最小的表也是千万级别。

hermes2.gif (10775 byte)

Hermes在索引上的改进：

1.索引按需加载

大部分的索引处于关闭状态，只有真正用到索引才会去打开；一级跳跃表采用按需Load，并不会Load整个跳跃表，用来节省内存和提高打开索引的速度。 Hermes经常会根据业务的不同动态的打开不同的索引，关闭那些不经常使用的索引，这样同样一台机器，可以被多种不同的业务所使用，机器利用率高。

排序和统计按需加载

排序和统计并不会使用数据的真实值，而是通过标签技术将大数据转换成占用内存很小的数据标签，占用内存是原先的几十分之一。

另外不会将这个列的全部值都Load到内存里，而是用到哪些数据Load哪些数据，依然是按需Load。不用了的数据会从内存里移除。

索引存储在HDFS中

理论上只要HDFS有空间，就可以不断的添加索引，索引规模不再严重受机器的物理内存和物理磁盘的限制，容灾和数据迁移容易得多。

采用Gaia进行进程管理（腾讯版的Yarn）

数据在HDFS中，集群规模和扩容都是一件很容易的事情，Gaia在腾讯集群规模已达万台）。

采用多条件组合跳跃降低数据倾斜

如果某个词语存在数据倾斜，则会与其他条件组合进行跳跃合并（参考Doclist的Skip List资料）。

多级Merger与自定义分区
GC上进行了一些优化

自己进行内存管理，关键地方的内存对象的创建和释放Java内部自己控制，减少GC的压力（类似Hbase的Block Buffer Cache）。不使用WeakHashMap和全局锁，WeakHashMap使用不当容易内存泄露，而且性能太差。用于分词的相关对象是共用的，减少反复的创建对象和释放对象

Hermes实时检索分析平台_腾讯大数据
http://data.qq.com/article?id=817
一、序言
随着TDW的发展，公司在大数据离线分析方面已经具备了行业领先的能力。但是，很多应用场景往往要求在数秒内完成对几亿、几十亿甚至几百上千亿的数据分析,从而达到不影响用户体验的目的。如何能够及时有效的获取分析结果提高工作效率，这是许多分析人员在面对大数据所不得不面临的问题。要满足这样的需求，可以采用精心设计的传统关系型数据库组成并行处理集群，或者采用一些内存计算平台，或者采用HDD的架构，但是这些都无疑需要比较高的软硬件成本。海量数据的今天，堆机器不是每个业务都愿意去做的。
实时检索分析平台(Hermes)，旨在为公司大数据分析业务提供一套实时的、多维的、交互式的查询、统计、分析系统，为公司各个产品在大数据的统计分析方面提供完整的解决方案，让万级维度、千亿级数据下的秒级统计分析变为现实。
本文将粗略介绍系统的应用场景、设计架构以及相关业务接入情况。

二、Hermes实时检索分析场景

**Hermes实时检索分析场景**.png

Paste_Image.png

打造轻量级OLAP（二）：Hive + Elasticsearch - Treant - 博客园
http://www.cnblogs.com/en-heng/p/5943703.html

引言
在做OLAP数据分析时，常常会遇到过滤分析需求，比如：除去只有性别、常驻地标签的用户，计算广告媒体上的覆盖UV。在Kylin中不支持复杂数据类型（主要指array、struct、map），要求数据输入Schema必须是平铺的，但是平铺后丢失了用户的聚合标签信息，而没有办法判断某一个用户是否只有性别、常驻地标签。显然，我们需要一种支持复杂数据类型的OLAP数据库；底层为Lucene的Elasticsearch正在向OLAP融合，腾讯内部已经用基于Lucene的分析数据库Hermes来做多维数据分析。
Elasticsearch（ES）在设计之初是用来做全文检索的搜索引擎，但随着倒排索引所表现出来优秀的查询性能，有越来越多人拿它做分析数据库使。可将ES视作文档型NoSQL数据库，一般情况下将具有相同schema的文档（document）归属于一个type，所有的文档存储于某一个index；ES与RDBMS的概念对比如下：
Relational DB ⇒ Databases ⇒ Tables ⇒ Rows ⇒ ColumnsElasticsearch ⇒ Indices ⇒ Types ⇒ Documents ⇒ Fields