ElasticSearch | 聚合分析的原理 & 精准度的问题

ElasticSearch | 聚合分析的原理 & 精准度的问题

作者: 乌鲁木齐001号程序员 | 来源:发表于2020-05-28 14:52 被阅读0次

ElasticSearch | 聚合分析的原理 & 精准度的问题
6.4-聚合分析的原理及精准度问题
golang elasticsearch 聚合分析（Aggreg
34、聚合分析的内部原理，_string field聚合实验以及
52_深入聚合数据分析_基于doc value正排索引的聚合内部
ElasticSearch | 聚合的作用范围 | 聚合中的排序
elasticsearch 聚合分析
Elasticsearch 聚合分析
Elasticsearch | 聚合分析
一次有趣的Elasticsearch+矩阵变换聚合实践

分布式系统的近似统计算法

分布式系统的近似统计算法.png

min 聚合分析的执行流程

这个分析的结果是准确的；

min 聚合分析的执行流程.png

Terms Aggregation | 返回参数中的 2 个特殊值

doc_count_error_upper_bound：被遗漏的分桶中可能包含的文档数的最大数；
sum_other_doc_count：除了返回结果中的 Bucket 中的文档以外，其他文档的数量（索引中总文档数 - 桶中返回的文档数）；

Terms Aggregation | 执行流程

返回分桶中文档数最大的 3 个分桶；
结果不一定准确；

Terms 聚合分析执行流程.png

Terms 聚合不正确的案例

Terms 聚合不正确的案例.png

文档数最多的 3 个桶应该是 A，B，D，但是 Terms 聚合的结果是 A，B，C；

doc_count_error_upper_bound | 举例分析

左边的分片中，选出来的文档数最大的 3 个桶中的文档数分别是：6, 4, 4，那么遗漏的文档数最大可能就是 4；
右边的分片中，选出来的文档数最大的 3 个桶中的文档数分别是：6, 3, 2，那么遗漏的文档数最大可能就是 2（图中有错）；

sum_other_doc_count | 举例分析

索引中全部文档数 - 返回的 3 个桶中的文档总数，29 - 22 = 7；

解决 Terms 聚合不准的问题 | 提升 shard_size 的参数

Terms 聚合分析不准的原因

数据分散在多个分片上，Coordinating Node 无法获取数据的全貌；

解决方案 | 1

当数据量不大时，设置 Primary Shard 数为 1，实现准确性；

解决方案 | 2

当数据分布在多个 Primary Shard 上时，设置 shard_size 参数，提升准确性，其原理是：每次从 Shard 上额外多获取数据，提升准确率；

参数 | shard_size | 设定

通过调大 shard_size 的大小，使得 doc_count_error_upper_bound 的值降低，从而提升准确度，其原理是：增加整体计算量，提高精准度的同时会降低响应时间；

shard_size 默认大小

shard_size = size * 1.5 + 10

相关文章

ElasticSearch | 聚合分析的原理 & 精准度的问题
分布式系统的近似统计算法 min 聚合分析的执行流程这个分析的结果是准确的；min 聚合分析的执行流程.png ...
6.4-聚合分析的原理及精准度问题
分布式系统的近似统计算法 Min 聚合分析的执⾏流程 Terms Aggregation 的返回值在 Terms...
golang elasticsearch 聚合分析（Aggreg
elasticsearch聚合分析的概念和语法可以参考：ES聚合分析[https://www.tizi365.co...
34、聚合分析的内部原理，_string field聚合实验以及
主要内容：聚合分析的内部原理，_string field聚合实验以及fielddata原理初探 1、聚合分析的内...
52_深入聚合数据分析_基于doc value正排索引的聚合内部
52_深入聚合数据分析_基于doc value正排索引的聚合内部原理聚合分析的内部原理是什么？？？？aggs，t...
ElasticSearch | 聚合的作用范围 | 聚合中的排序
聚合的作用范围 ElasticSearch 聚合分析的默认作用范围是 Query 的查询结果集；同时 Elast...
elasticsearch 聚合分析
Elasticsearch 聚合分析
准备数据 Metric
Elasticsearch | 聚合分析
核心要点：1、聚合分析简介2、指标聚合2.1、Max Aggregation2.2、Min Aggregation...
一次有趣的Elasticsearch+矩阵变换聚合实践
前言 Elasticsearch聚合功能非常丰富，性能也相当不错，特别适合实时聚合分析场景，但在二次聚合上也有明显...

网友评论

本文标题：ElasticSearch | 聚合分析的原理 & 精准度的问题

本文链接：https://www.haomeiwen.com/subject/tqzoahtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|ElasticSearch | 聚合分析的原理 & 精准度的问题|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！