理解Cassandra的架构
Cassandra架构的详细描述
Cassandra 被设计成通过多个节点去处理海量数据且不存在任何单点故障的架构。这个架构基于系统和硬件的异常能够得到处理的设计。Cassandra通过在集群中所有使用端对端的分布式系统中数据分布相同的节点来定位失败的原因。每个节点会通过gossip
通信协议定期地和集群中的其它节点交换它自己的状态信息。每个节点在捕获写入动作时会顺序地写入commit log
来确保数据的持久化。接着数据会被索引并写入到内存中去,这种结构被称为memtable
,它和回写缓存类似。每当内存中的结构满了以后,数据被写入到硬盘中的SSTables
数据文件中。在集群中的所有的写入将会自动分区和复制。
Cassandra会周期性地通过一个叫压缩
的程序合并SSTables,丢弃过时的被标记的文件然后删除到回收站。为了确保集群中的所有数据保持一致性,各种各样的修复机制被启动。
Cassandra是一个分区的行存储数据库,所有的行都通过主键组织到表中。Cassandra的架构允许任何授权用户通过使用CQL语言连接所有数据中心的任何节点。为了方便使用,CQL使用了和SQL相同的语法来处理表中的数据。开发者可以通过cqlsh
,DevCenter
或者是程序语言的驱动来使用CQL,一般的,集群中的每个应用都有一个keyspace
和很多张不同的表组成。
在集群中,客户端的读写请求可以发送给集群中的任何节点。当一个客户端通过请求连接到一个节点以后,这个节点将作为协作者为这个特定的客户端操作提供服务。协作者在客户端应用和被请求数据的所有者之间扮演了一个代理的角色。协作者根据集群的配置来决定在环中的哪个节点应该取得客户端发送的请求。
核心结构
- 节点
存储数据的地方。也是Cassandra的整个基础组件的基础。
- 数据中心
相关的节点的集合。数据中心可以是一个物理的也可以是逻辑的。不同的工作负荷应该使用不同的物理的或者是逻辑的数据中心。数据复制是由数据中心设置的。通过使用不同的数据中心可以防止Cassandra事务被其它的工作负荷影响并保持请求和其它节点之间较低的延迟。根据复制因子,数据能够被复制到多个数据中心。数据中心不能跨域多个物理位置。
- 集群
一个集群包含一个或者多个数据中心。集群可以横跨多个物理位置。
- 提交日志
所有写入的数据为了保证数据的持久化在写入之前会先记录到提交日志上去。数据一旦被刷新到
SSTables
中以后,就可以被归档,删除或者是回收。
SSTable
一个有序的字符串表,它是一个不可变的数据文件,Cassandra会将
memtables
中的数据定期写入到SSTable
中去。
CQL Table
一个由表的行所获取的一个有序的列的集合。一个表由很多列组成并且有主键。
配置Cassandra的核心组件
Gossip
一个端对端的通信协议,用来在Cassandra集群中发现和分享其它节点的位置和状态信息。
Gossip
信息也会被其它节点持久化以便当一个节点重新启动以后能够立刻使用。
Partitioner
一个分区器可以决定哪个节点将会接收到数据片的第一个副本,并且如何分发其它的副本到集群中其它节点。每行数据都通过主键被唯一地标志出来,主键可能和分区的key相同,也可能包含其它集群的列。一个分区器也是一个由行的主键导出的令牌的哈希方法。分区器使用令牌的值去决定集群中的哪个节点去接收这一行的副本。
Murmur3Partitioner
是新的Cassandra集群的默认分区策略并且在大多数情况下也是一个正确的选择。
你必须给每个节点设置分区器并分配
num_tokens
的值。每个节点分配令牌的数量取决于系统的硬件性能。如果不需要使用虚拟节点,则使用initial_token
来代替。
- 副本因子
集群中副本的总个数。副本因子为1意味着每行只有一个副本在一个节点中。副本因子为2则意味着每行有两个副本在不同的节点中。所有的副本都是同等重要的,并不存在主副本。你可以给每个数据中心设置副本因子。一般地,你应该设置大于一个的副本因子个数,但是不要超过集群节点的个数。
- 副本替换策略
Cassandra在不同的节点中存储副本,从而确保系统的可靠性和容错性。一个副本策略将会决定哪个节点会替换指定副本。第一个数据的副本也是第一份数据的拷贝,不过这不是在任何情形下都是唯一的。
NetworkTopologyStrategy
在大多数开发环境下是推荐的,因为可以很简单的在多个数据中心中扩展当需要为未来扩展的时候。
当创建
keyspaces
的时候,需要定义副本替换策略和你想要的副本数量。
- 监视器
一个监视器是在数据中心或者拓扑中定义了一组机器可以被副本策略使用去替换其它的副本。
你必须定义一个监视器在你创建集群的时候。所有的监视器使用一个动态的监视层,监控着整个集群的性能和选择最佳的副本节点读取。默认监视器是被启用的并且推荐在大部分开发中使用。给Cassandra中的每个节点在cassandra.yaml中动态的去配置。
默认的
SimpleSnitch
不能识别数据中心或者拓扑信息。推荐在单数据中心或者单区域的公有云上使用。GossipingPropertyFileSnitch
推荐在生产环境中使用。它定义了节点的数据中心和拓扑信息并使用gossip
去传播这些信息给其它的节点。
- cassandra.yaml配置文件
这个文件是配置Cassandra集群的初始化属性的地方,包括缓存表格参数、调节资源使用、超时设置、客户端连接、备份和安全等。
默认地,一个节点在cassandra.yaml中被配置去存储它自己管理的数据在一个文件夹集合中。
在生产环境的集群开发中,你可以修改提交日志的文件夹到不同的磁盘驱动器中从数据文件文件夹。
- 系统keyspace表格属性
你可以给每个keyspace或者每个表通过基本编码或者使用客户端应用想cql来设置存储配置属性。
网友评论