2023-08-08
原文作者:Ressmix 原文地址:https://www.tpvlog.com/article/146

我们上一章在讲解Document数据写入时,提到真正处理请求的那个primary shard会把数据同步给自己的replica shard,同步成功后才返回响应。

事实上,这么说并不完全准确,Elasticsearch其实提供了三种数据同步机制: oneallquorum 。我们可以在请求时带上consistency参数表明采用哪种模式,默认是 quorum 。例如:

    put /index/type/id?consistency=quorum

一、数据一致性

1.1 one模式

所谓one模式,就是对于document的写操作(增删改),只要有一个primary shard是active活跃可用的,操作就可以执行。

1.2 all模式

所谓all模式,就是对于document的写操作(增删改),要求必须所有的primary shard和replica shard都是活跃的,才可以执行这个写操作。

1.3 quorum模式

所谓quorum模式,就是对于document的写操作(增删改),写之前必须确保大多数shard都可用,当不满足“大多数”这个条件时,请求就会默认等待1分钟,超过时间就会报timeout错误。我们可以在写操作的时候,加一个timeout参数,比如:

    PUT /index/type/id?timeout=30

这样就可以自己控制超时时间。

那么,何谓大多数shard呢?事实上,Elasticsearch是通过一个公式去计算的:

    (primary + number_of_replicas) / 2 + 1

举个例子,我们有个索引test_index,一共是1个primary shard,3个replica shard:

    PUT /test_index
    {
       "settings" : {
          "number_of_shards" : 1,
          "number_of_replicas" : 3
       }
    }

假设我们有两个ES进程节点,那么shard的分布可能是下面这样的:

202308082147052941.png

此时,(primary + number_of_replicas) / 2 + 1 = (1+3)/2+1 = 3,那么只有当3个shard都是active状态时,写操作才能执行,如果任意一个ES节点挂了,写操作就不能执行了(此时只有2个active shard)。

注意,quorum模式只有当number_of_replicas>1时才生效,如果不满足条件,请求就会一直wait。

四、总结

本章,我们介绍了Elasticsearch的写一致性原理,特别要注意quorum模式时对于active shard数量的要求,我们在对index进行shard拆分时也要仔细考虑清楚。

阅读全文