使用Elasticsearch构建风险搜索引擎

作者: 点融黑帮 | 来源:发表于2016-11-22 11:41 被阅读908次

使用Elasticsearch构建风险搜索引擎
2018-07-12（Elasticsearch）
Elasticsearch：ES聚合操作，基于Kibana和Ja
Elasticsearch：基本概念、安装、快速开始
Elasticsearch：索引，映射，文档操作
Spring Data Elasticsearch
Linux环境下ElasticSearch单实例以及集群搭建
ElasticSearch基础
elasticsearch入门（一） -------- 简介及安
如何用 Node.js 和 Elasticsearch 构建搜索

在P2P审核过程中，我们需要收集借贷人的负面信息做风险评估和信息检索。在用传统的DB(如MySQL)做全文检索时由于索引是存储在磁盘导致搜索实时性很低，也无法实现对中文的分词。

因此我们引入了Elasticsearch(以下简称ES)来构建P2P领域的风险搜索引擎。

技术架构

数据收集

采用pyspider构建分布式网络爬虫，以RabbitMQ作为消息队列，负责数据的采集，将数据持久化到MongoDB。

数据同步

以Zookeeper作为调度平台，Redis做缓存策略，实现数据的增量同步。

ES集群

我们用三台物理机搭建一套ES集群。

引入ik分词实现对中文的分词处理：

IK Analyzer中文分词：

"四川省成都市高新区金融城"-> "四川省", "成都市", "高新区", "金融城"

自定义了身份证分词插件：

"511234190012011234" ->

"511234190012011234"

"511234"

"5112341900"

"51123419001201"

"1234"

搜索平台

采用Spring Boot构建一个搜索平台做风险信息检索。

为什么要使用ES？

ES是一个基于Lucene、支持RESTful、可实时分析的分布式搜索引擎，使用JSON通过HTTP的方式来索引数据。 Github、Stackoverflow、Mozilla、Netflix等多家公司都将ES作为他们的搜索引擎。

它具有以下优势：

Lucene的倒排索引比mysql的b-tree检索更快。

在Mysql中给两个字段独立建立的索引无法联合起来使用,必须对联合查询的场景建立复合索引。而Lucene可以任意AND或者OR组合使用索引进行检索。

ES支持nested document，可以把一批数据点嵌套存储为一个document block，减少需要索引的文档数。

ES可以把分开的数据当成一张表来查询和聚合。相比之下Mysql如果自己做分库分表的时候，联合查询不方便。

跨节点平衡集群中节点间的索引与搜索负载。

自动复制你的数据以提供冗余副本，防止硬件错误导致数据丢失。

自动在节点之间路由，以帮助你找到你想要的数据。

可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。

性能优化

在实践过程中，我们会做不同程度的调优，以此来提高搜索引擎的性能。

索引性能

ES的index的线程池默认队列大小为200，实际过程中我们将其提高到500以加快索引速度，threadpool.index.queue_size: 500。

在索引文档的时候，由于读取的数据量大，不得不采用bulk操作，ES默认的队列大小过小(默认为50)，大量的写入操作降低了索引性能，我们将其大小调至3000，threadpool.bulk.queue_size: 3000，当然这个值应当根据你的数据量来定，一般来说，在大数据量的情况下，2000 - 3000能较好的提升性能。

还有一些search、get参数的设置，我们采用ES的默认配置，具体可参考(https://www.elastic.co/guide/en/elasticsearch/reference/current/modules-threadpool.html)。

查询性能

路由机制

由于收集的借贷人信息来自各地，如果只有一个用户纬度，那么每次检索都需要消耗更多的时间。为了提高查询速度，减少慢查询，我们在每个集群使用不同的routing，然后在前端分析查询时，把各个不同的查询由路由引入到相应的集群，从而加快查询速度。例如，我们可以按照省份作为一个纬度，在统计分析某个省份的风险信息时，可以快速的获取结果，而不需要每个分片逐一扫描。

JVM性能

ES的Heap Size默认情况下未做优化，官方的建议是设置堆内存为可用内存的一半，在启动时可以通过设置ES_HEAP_SIZE参数来指定大小。但是Don’t Cross 32 GB!，在大内存(如256GB)的机器中，使用超过30GB(如64GB)的Heap Size还不如32GB的性能。具体的可以参照ES的官方说明

(https://www.elastic.co/guide/en/elasticsearch/guide/current/heap-sizing.html#compressed_oops)。

插件工具

Elasticsearch-Head：主要用作数据查询。

(https://github.com/mobz/elasticsearch-head)

Elasticsearch-Kopf：用户ES集群健康状态的监控。

(https://github.com/lmenezes/elasticsearch-kopf)

Elasticsearch-Knapsack：用于Import/Expoer ES数据，支持tar、zip、cpio等多种格式。

(https://github.com/jprante/elasticsearch-knapsack)

Elasticsearch-SQL：用于支持SQL查询。

(https://github.com/NLPchina/elasticsearch-sql)

Elasticsearch-analysis-ik：一款优秀的中文分词插件。

(https://github.com/medcl/elasticsearch-analysis-ik)

本文作者：白宗直(点融黑帮)，来自点融Data Team。目前主要负责构建风控领域的搜索引擎，关注分布式应用和大数据处理，Scala爱好者，业余喜欢玩桌球、篮球、滑雪。

使用Elasticsearch构建风险搜索引擎
在P2P审核过程中，我们需要收集借贷人的负面信息做风险评估和信息检索。在用传统的DB(如MySQL)做全文检索时由...
2018-07-12（Elasticsearch）
Django中Elasticsearch（全文搜索引擎）的使用一、Elasticsearch 1、使用Docke...
Elasticsearch：ES聚合操作，基于Kibana和Ja
摘要：Elasticsearch，Java 本文为《Elasticsearch搜索引擎构建入门与实战》第七章内容的...
Elasticsearch：基本概念、安装、快速开始
摘要：Elasticsearch 《Elasticsearch搜索引擎构建入门与实战》第一章读书笔记 Elasti...
Elasticsearch：索引，映射，文档操作
摘要：Elasticsearch《Elasticsearch搜索引擎构建入门与实战》第三章读书笔记索引操作索引...
Spring Data Elasticsearch
前言 Spring Data Elasticsearch项目核心概念使用ElasticSearch搜索引擎开发解决...
Linux环境下ElasticSearch单实例以及集群搭建
@[TOC] 什么是ElasticSearch 基于Apache Lucene构建的开源搜索引擎采用Java编写...
ElasticSearch基础
什么是ElasticSearch 基于Apache Lucene构建的开源搜索引擎采用Java编写，提供简单易用...
elasticsearch入门（一） -------- 简介及安
一、简介 1、什么是elasticsearch？基于Apache Lucene构建的开源搜索引擎。采用Java...
如何用 Node.js 和 Elasticsearch 构建搜索
如何用 Node.js 和 Elasticsearch 构建搜索引擎相关阅读： docker-nodejs英文原...