《设计数据密集型应用》第六章(2) 数据分区：二级索引

作者: MeazZa | 来源:发表于2019-03-26 09:12 被阅读0次

数据密集型应用系统设计
《设计数据密集型应用》第六章(2) 数据分区：二级索引
读密集型系统设计-数据复制
《设计数据密集型应用》第六章(1) 数据分区：分区方式
《设计数据密集型应用》第六章(3) 数据分区：Rebalance
Designing Data-Intensive
数据密集型应用设计
架构师的秘籍，让你把底层原理全部弄清楚
MySQL(4)应用优化
Z_HPC_存储

之前我们介绍过Key-value数据的分区模型。如果数据只能由主键进行访问，我们可以由Key确定分区，并用它路由到Key所在的分区进行读取操作。

如果引入二级索引（Secondary Indexes），情况会更加复杂。二级索引通常不像主键那样，可以唯一确定数据，二级索引更多用来查找出现某个特定值的所有数据，比如：查找用户123的所有行为，查找包含hogwash的所有文章等。

二级索引是数据库的重要功能，在文档型数据库中也很常见，但并不是所有数据库都支持它。许多Key-Value数据库，例如HBase和Voldemort，由于二级索引的复杂性，因此并未支持；其他数据库，比如Risk，考虑到二级索引对数据模型的重要性而做了支持；类似Solr和Elasticsearch这种数据库，天生是为二级索引而存在的。

二级索引的最大问题是它和数据分区不是完全对应的，因此有两种设计二级索引的方法，分别为：基于文档的二级索引分区和基于词的二级索引分区。

基于文档的二级索引分区

假设我们有一个售车网站，每辆车有一个唯一ID，称为文档ID，数据库的分区基于此ID，比如分区0中包含的数据ID范围为0-499，分区1中包含的数据ID范围为500-999等。

现在用户想要查找车辆，我们允许它通过颜色和品牌过滤，因此需要在颜色和品牌上添加二级索引。当一个红色的卡添加到数据库时，数据库分区中自动将文档ID添加到color:red的索引列表里，如下图所示。

基于文档的二级索引分区

在这种索引方式下，每个分区维护自己的二级索引，只管理分区内的文档，它并不关心其他分区存储的数据。当写数据库时，只需要修改文档ID对应的分区。因此，这种索引方式也被称为本地索引。

在查询红色的车时，需要查询所有的分区，并将每个分区的结果合并在一起，这种查询分区数据库的方式称为scatter/gather。该查询方式使得二级索引的查询成本很高，很容易出现尾延迟的情况。特别是如果查询多个二级索引字段的情况，很难避免查询所有的分区。即使如此，它也被广泛使用，比如MongoDB、Riak、Cassandra、Elasticsearch、SolrCloud和VoltDB等。