共识算法-Paxos

分布式共识算法-Paxos

共识算法目的是通过一系列通信约束，使得依靠不可靠通信网络上的不同结点之间能够通过算法得到一致的结论（区别于分布式一致性这一概念）,共识算法是实现state machine replication 的基础，后者是分布式系统中较为重要的备份容错算法策略

一个分布式系统只能满足一下三条性质中的两条

为什么说分布式系统只能保证其中两条？

分布式系统由于系统结点/分区分布于不同的网络环境，通过网络进行通信，不可避免地会出现结点由于网络故障下线问题，为了系统的可用性，必须保证Partition Tolerance
当部分结点出现网络故障时，面对客户端请求，系统有两种处理方式
- 回退操作，相当于保证了C但舍弃了A
- 继续执行操作，由于部分结点下线，此时执行操作无法保证C，但是保证了A

单机系统由于不会出现分布网络失效，所以也就不需要P，可以同时保证CA

The Paxos protocol was first submitted in 1989 and named after a fictional legislative consensus system used on the Paxos island in Greece

Paxos是经典的基于消息传递共识算法，然而理解难度过高，简单整理以加深印象，算法中定义了四种不同的角色（一个结点可以有多个不同的角色）

其他概念

Proposal: 提案，每个提案由提案号n和提案值组成v:
Quorums: 由大多数Accepter组成的集合，用来投票确定是否接受提案
safety/liveness/fault tolerance: 共识算法的三个形式，类似于CAP三者只能满足其二
- safety: “坏事”永远不会发生
- liveness: “好事”终将发生
- 没太理解和fault tolerance之间的关系和区别

Paxos保证safety+fault tolerance，不保证liveness

分为确定提案值+接受提案两个阶段

只看算法流程很难理解paxos为什么要这么设计，结合以下几个设计出发点方便理解

根据对算法流程的分析，Proposer和Acceptor的行为可以理解为：

Paxos之所以能够保证safty，即保证得到共识，可以从以下角度理解：

Basic Paxos无法保证livness，即无法保证算法能够终止找到共识

两个Proposer在Accept阶段争抢,如下
- Proposer1此时提出提案1，即将走到Accept阶段时，Proposer2提出提案2，导致提案1的编号因为小于最新提案2，无法通过，Proposer1重新提交提案3，导致提案2小于提案3，无法通过
- 最终导致无限的抢占，无法达共识
通过Proposer的随机休眠避免抢占冲突发生

Paxos存在的如下问题，导致其只适合作为理论上的分布式共识算法模型

为了解决Paxos算法上述问题，改进得到Multi Paxos算法

Multi Paxos就和Raft以及Zab很接近了