TiDB-Server
-
响应时间统计
- SQL层次:Query Summary -> Duration(999, 99, 95, 80 百分位响应时间)
- Server层次:Query Details -> Duration(整体响应时间统计)
-
QPS统计
- SQL层次:Query Summary -> QPS(每秒查询次数)
- Server层次:Query Summary -> CPS BY INSTANCE(每秒调用次数,按实例统计)
-
事务统计
- 响应时间:Transcation -> Duration(事务处理时间,区分乐观事务和悲观事务)
- 语句量:Transcation -> Transcation Statement Num(事务中包含的语句数量,用于识别大事务)
-
基础指标
- 资源使用率:Server -> cpu/memory/connection count(CPU、内存和连接数使用率)
- SQL排队情况:Server -> Get token duration(获取处理令牌的等待时间)
-
TSO获取
- 延迟统计:pd-client -> pd-tso wait/rpc duration(获取TSO时间戳的延迟)
-
TiKV相关请求
- 响应时间:kv-request -> kv-request duration(TiKV请求的响应时间)
- 错误重试:kv-errors -> kv-backoff ops(TiKV请求错误后的重试次数)
TiKV
-
集群状态
- 存储使用率:tikv-details -> cluster(Store/Available,总/已使用/剩余可用存储)
- 基础资源:tikv-details -> cluster(cpu/memory/io/QPS/Mbps,基础资源监控)
- Region分布:tikv-details -> cluster(leader/region,Region和Leader的分布情况)
- 繁忙状态:tikv-details -> cluster(errors -> server is busy,TiKV繁忙状态)
-
线程池状态
- gRPC处理:tikv-details -> thread(grpc poll cpu,处理所有接收到的TiKV请求)
- 读请求处理:tikv-details -> thread(unified read pool cpu,处理读请求)
- 写请求处理:tikv-details -> thread(Scheduler Work cpu,处理写请求和事务日志)
- Raft日志处理:tikv-details -> thread(Raft store cpu,处理Raft日志)
- 数据持久化:tikv-details -> thread(Async apply cpu,数据持久化工作)
-
耗时统计
- gRPC消息处理:tikv-details -> duration(grpc -> 99% grpc message duration,TiKV总请求耗时)
- 事务处理耗时:tikv-details -> duration(scheduler-commit相关指标,事务处理耗时和锁等待时间)
- Raft处理耗时:tikv-details -> duration(Raft propose/io相关指标,Raft处理、日志写入和提交耗时)
PD
- 服务监控:dashboard(PD服务的整体监控情况)
- Region状态:region health(Region的健康状态,如empty region)
- 负载均衡:statistic -> balance(Store的分布情况,关注TiKV扩缩容时的均衡性)
- 热点统计:statistic -> hot write/read regions(写/读热点Region的识别)
通过这样的优化和重组,监控指标的结构更加清晰,便于理解和分析。同时,也更容易在监控系统中进行配置和可视化展示。
网友评论