需求
- 存储量
- 吞吐量
- 数据规模的增长-损坏率 ---> 数据可靠性
- 服务高可用
- 高效运维
- 低成本
大规模分布式系统的挑战
- 大规模数据,比起单机系统,更容易出现小概率事件
- 小概率事件
- 磁盘错误: 磁盘年损坏率5%,机器日宕机率1%%。怎么把慢节点绕开,怎么把程序平滑的移动到别的机器上
- Raid卡故障:带Cache的Raid卡
- 网络故障:网络架构为交换机树形结构,交换机断掉后可能导致一部分机器与其他机器不连通。一次写入时,可以将数据写到不同的交换机下的机器
- 电源故障:写入 Latency 10-20ms,断电可能导致MemCache里的数据丢失。
- 数据错误:可能出现在磁盘、网络、内存等。用CRC校验,对数据进行全链路保护。
- 系统异常:Linux系统相对稳定,时钟NTP server造成时钟跳变。
常见的分布式系统
- HDFS 应用最广泛
- Ceph 应用在块存储系统
- 盘古 阿里云
- 其他: GPFS, Lustre, MooseFS
网友评论