第12章 高可用性
- 高可用性实际上意味着更短的宕机时间。
- 100%的高可用性是不可能达到的,5个9意味着99.990%的正常可用时间,换句话说,每年只允许5分钟的宕机时间。
- 导致宕机的原因需要注意的地方:
- 运行环境中,最普遍的问题是磁盘空间耗尽。
- 性能问题中,最普遍是运行很糟糕的sql,糟糕的Schema和索引设计。
- 复制问题通常由于主备数据不一致导致的。
- 如何实现高可用性主要从两方面入手,避免宕机原因,减少宕机恢复时长。
- 提升失效平均失效时间的注意点:
- 测试恢复工具和流程,包括中备份中恢复数据。
- 遵循最小权限原则。
- 保持系统干净,整洁。
- 使用好的命名和组织约定来避免产生混乱,例如服务器是用于开发还是生产环境。
- 谨慎安排升级数据库服务器。
- 在升级前,要自己检查系统。
- 使用innodb并进行适当的配置,确保innodb是默认的存储引擎。
- 确认基本的服务器配置是正确的。
- 通过skip_name_resolve禁止DNS。
- 除非能证明有效,否则禁用查询缓存。
- 避免使用复杂的特性。
- 监控重要的组件和功能,但是也要避免误报。
- 记录服务器状态和性能指标。
- 定期检查复制完整性。
- 将备库设置成只读。
- 定期进行查询语句审查。
- 归档并清理不需要的数据。
- 为系统保留一部分的性能。
- 避免单点,增加冗余
- 虚拟ip地址或者ip地址接管可以较快得切换故障的服务器。
网友评论