# zookeeper

# zookeeper基础介绍

# zookeeper的来源

有雅虎开发，后捐献给了Apache组织。在Hadoop生态系统中，许多项目的Logo都采用了动物，比如 Hadoop 和 Hive 采用了大象的形象，HBase 采用了海豚的形象，而从字面上来看 ZooKeeper 表示动物园管理员，所以大家可以理解为 ZooKeeper就是对这些动物（项目组件）进行一些管理工作的。

对于单机环境多线程的竞态资源协调方法，我们一般通过线程锁来协调对共享数据的访问以保证状态的一致性。但是分布式环境如何进行协调呢？于是，Google创造了Chubby，而ZooKeeper则是对于Chubby的一个开源实现。 ZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务，它提供了一项基本服务：分布式锁服务。由于ZooKeeper的开源特性，后来我们的开发者在分布式锁的基础上，摸索了出了其他的使用方法：配置维护、组服务、分布式消息队列、分布式通知/协调等。它被设计为易于编程，使用文件系统目录树作为数据模型。

# zookeeper的五大特性

顺序一致性
- 客户端的更新顺序与他们发送的顺序相一致
原子性
- 更新操作要么全部成功，要么全部失败
单一视图
- 无论客户端连接到哪一个服务器，都可以看到相同的zookeeper视图
可靠性
- 一旦一个更新操作被应用，那么在客户端再次更新它之前，其值将不会改变
实时性
- 在特定的一段时间内，系统的任何变更都将被客户端检测到

# zookeeper的使用场景

配置管理
- 分布式系统，很多服务部署在不同的服务器上，都有自己的一套配置，逐台更新配置非常麻烦。使用zk统一管理，各服务监听zk配置节点变化，一旦变化所有服务都会得到zk通知，然后从leader获取新配置，并完成更新。
命名服务（服务注册与发现）
- 服务提供方将自己的服务名、ip等注册到zk，服务调用方监听zk注册节点，获得最新的服务提供方地址，进行调用。
分布式锁服务
- 保持独占：单进程（抢注临时节点，谁创建成功，谁获得锁）
- 控制时序：加锁排队（创建有序临时节点，按顺序获得锁）
集群管理
- 是否有机器加入或退出
- 选举leader

# zookeeper系统模型

An image

# zookeeper角色

An image

# zookeeper数据模型

# 数据结构——Znode

数据结构——Znode
- 每个Znode兼具文件和目录两种特点
  - 像文件一样维护着数据、原信息、ACL、时间戳等数据结构
  - 像目录一样可以作为路径标识的一部分
- 每个Znode有3各部分组成：
  - stat：此为信息状态，描述Znode的版本，权限等信息
  - data：与该Znode关联的数据
  - children：该Znode下的子节点
- zk规定节点Znode的数据大小不能超过1M，但实际上我们在Znode上的数据量应尽可能的小，因为数据量过大会导致zk性能明显下降
Znode节点类型
- 临时节点-ephemeral：
  - 该节点的生命周期依赖于创建他们的会话。一旦会话（Session）结束，临时节点将被自动删除，当然也可以手动删除。
  - 虽然每个临时节点会绑定到一个客户端会话，但他们对所有客户端还是可见的。
  - 临时节点不允许拥有子节点
- 持久节点-persistent:
  - 该节点生命周期不依赖于会话
  - 只有客户端显示执行删除操作的时候，他们才能被删除
- 顺序节点-sequential：
  - 顺序节点可以是持久的，也可以是临时的
  - 当一个新Znode被创建为一个顺序节点，zk通过将10位的序列号附加到原始名称来设置Znode路径

# 原语——定义在Znode上的一组操作

在zookeeper中提供了9种基本操作：
- create:创建一个Znode节点，父节点必须存在
- delete:删除一个Znode节点，下面不能有子节点
- exists:判断一个Znode是否存在，存在时返回元数据
- getACL:获取Znode的ACL（访问控制列表）
- setACL:设置Znode的ACL（访问控制列表）
- getChildren:获取Znode的所有子节点的列表
- getData:获取子节点的相关数据
- setData:设置子节点的相关数据
- sync:使client当前连着的zookeeper服务器和zookeeper的leader节点同步一下数据

# zookeeper的访问权限控制

zookeeper的访问权限控制，使用ACL（Access Control List）模式来实现：
- ACL权限控制，使用“schema:permission”来标识，主要涵盖上方面：
  - 权限模式：鉴权策略，包括world、IP、auth、digest四种
  - 授权对象：权限赋予的用户或者一个实体（授权对象）
  - 权限：CDRWA(create,delete,read,write,admin)（权限类型）

zookeeper的权限控制是基于每一个Znode节点的，需要对每个节点设置权限

每个Znode支持设置多种权限控制方案和多个权限

子节点不会继承父节点权限，客户端无权访问某节点，但可能可以访问它的子节点

# 通知——Watcher机制，用于对分布式应用发送消息

zookeeper可以为所有读操作设置watch，这些读操作包括：exists()、getChildren()及getData()
watch事件是一次性的触发器，当watch对象状态发生改变时，将会触发此对象所对应的watch事件
watch事件将被异步地发送给客户端，并且zookeeper为watch机制提供了有序的一致性保证。理论上客户端接收watch事件的时间要快于其看到watch对象状态变化的时间。
zookeeper所管理的watch可以分为两类：
- 数据watch（data watches）:getData和exists负责设置数据watch
- 孩子watch（child watches）:getChildren负责设置孩子watch

# zookeeper日常使用

# 文件目录结构

bin:
- 一些主要的运行命令
conf:
- 存放配置文件，其中需要修改的是zoo.cfg，运行zk之前必须配置.cfg。文件中有一个默认的zoo——sample.cfg文件。
contrib:
- 附加的一些功能
dist-maven:
- mvn编译后的目录
docs:
- 文档
lib:
- 需要依赖的jar包
recipes:
- 案例demo的代码
src:
- 源码

# 配置参数

tickTime:Client-Server通信心跳时间
- zookeeper服务器之间或客户端与服务器之间维持心跳的时间间隔，也就是每个tickTime时间就会发送一个心跳。单位毫秒，默认2000毫秒
initLimit:Leader-Follower初始通信时限
- 集群中的follower服务器（F）与leader服务器（L）之间初始连接能容忍的最多心跳数（tickTime的数量）
syncLimit:Leader-Follower同步通信时限
- 进群中follower服务器与leader服务器之间的请求和响应最多能容忍的心跳数
dataDir:数据文件目录
- 该属性对应的目录是用来存放myid信息跟一些版本，内存数据快照日志，跟服务器唯一的ID信息等
clientPort:客户端连接端口
maxClientCnxns:允许连接的客户端数据
- 0位不限制，通过IP来区分不同客户端
dataDir:存放事务日志的路径
autopurge.snapRetainCount:自动清理保留快照日志的文件数量
autopurge.purgeInterval:自动清理使劲间隔，单位小时

# 集群配置

集群配置格式：service.N=YYYY:A:B
- N：代表服务器编号（也就是myid里的值）
- YYYY：代表服务器地址
- A：代表Follow跟Leader通信的端口，简称服务端内部通信端口（默认2888）
- B：代表选举端口（默认3888）
Observer模式配置：service.id=host:port:port:observer

# 高可用

设计
- zookeeper本身的设计是强一致性的，重点在于数据的同步和一致，而并非是数据高可用性的
高可用
- zookeeper系统中只要集群中存在超过一半的节点能正常工作，那么整个集群就能正常对外服务（这里的节点指非observer节点）
zookeeper选主过程速度很慢
- zookeeper选主过程通常耗时30~120s，期间由于没有master，所以整个集群是不可用的。对于网络里偶尔出现的，比如半秒一秒的网络隔离，zookeeper会由于选主过程把不可用的回见放大几十倍。
容灾
- zookeeper的高可用在部署上是很有考量的，zookeeper集群在部署上可以做到机房容灾（3机房），但是做不到异地容灾（异地之间网络比较复杂，容易出现集群重新选主，导致整个集群不可用，而选主时间又很长）。另外，为了提升集群的扩展性和稳定性，可以引入observer节点，提升读性能，保护leader和follow节点。

# 双机房集群部署

双机房集群部署推荐
- 机房A：
  - leader
  - follower
  - follower
- 机房B：
  - observer
  - observer
  - observer

# 监控命令

zookeeper3.4.6以后，支持某些特性的四字命令字母与其交互。这些大多是查询命令，用来获取zookeeper的当前状态以及相关信息。用户在客户端通过teInet或nc向zookeeper提-交相应的命令。

命令	示例	描述
conf	echo conf \| nc localhost 2181	（New in 3.3.0）输出相关服务配置的详细信息。比如端口、zk数据及日志配置路径、最大连接数、session超时时间、serverId等
cons	echo cons \| nc localhost 2181	（New in 3.3.0）列出所有连接到这台服务器的客户端连接/会话的详细信息。包括“接收/发送”的包数量、session id、操作延迟、最后的操作执行信息。
srvr	echo srvr \| nc localhost 2181	（New in 3.3.0）输出服务器的详细信息。zk版本、接收/发送包数量、连接数、模式（leader/follower）、节点总数。
stat	echo stat \| nc localhost 2181	输出服务器的详细信息：接收/发送包数量、连接数、模式（leader/follower）、节点总数、延迟。所有客户端的列表

← 注册中心-主流注册中心 zookeeper-分布式锁原理 →