美文网首页
TIDB~常用监控指标

TIDB~常用监控指标

作者: 开心的蛋黄派 | 来源:发表于2024-07-05 15:52 被阅读0次

TiDB-Server

  1. 响应时间统计

    • SQL层次:Query Summary -> Duration(999, 99, 95, 80 百分位响应时间)
    • Server层次:Query Details -> Duration(整体响应时间统计)
  2. QPS统计

    • SQL层次:Query Summary -> QPS(每秒查询次数)
    • Server层次:Query Summary -> CPS BY INSTANCE(每秒调用次数,按实例统计)
  3. 事务统计

    • 响应时间:Transcation -> Duration(事务处理时间,区分乐观事务和悲观事务)
    • 语句量:Transcation -> Transcation Statement Num(事务中包含的语句数量,用于识别大事务)
  4. 基础指标

    • 资源使用率:Server -> cpu/memory/connection count(CPU、内存和连接数使用率)
    • SQL排队情况:Server -> Get token duration(获取处理令牌的等待时间)
  5. TSO获取

    • 延迟统计:pd-client -> pd-tso wait/rpc duration(获取TSO时间戳的延迟)
  6. TiKV相关请求

    • 响应时间:kv-request -> kv-request duration(TiKV请求的响应时间)
    • 错误重试:kv-errors -> kv-backoff ops(TiKV请求错误后的重试次数)

TiKV

  1. 集群状态

    • 存储使用率:tikv-details -> cluster(Store/Available,总/已使用/剩余可用存储)
    • 基础资源:tikv-details -> cluster(cpu/memory/io/QPS/Mbps,基础资源监控)
    • Region分布:tikv-details -> cluster(leader/region,Region和Leader的分布情况)
    • 繁忙状态:tikv-details -> cluster(errors -> server is busy,TiKV繁忙状态)
  2. 线程池状态

    • gRPC处理:tikv-details -> thread(grpc poll cpu,处理所有接收到的TiKV请求)
    • 读请求处理:tikv-details -> thread(unified read pool cpu,处理读请求)
    • 写请求处理:tikv-details -> thread(Scheduler Work cpu,处理写请求和事务日志)
    • Raft日志处理:tikv-details -> thread(Raft store cpu,处理Raft日志)
    • 数据持久化:tikv-details -> thread(Async apply cpu,数据持久化工作)
  3. 耗时统计

    • gRPC消息处理:tikv-details -> duration(grpc -> 99% grpc message duration,TiKV总请求耗时)
    • 事务处理耗时:tikv-details -> duration(scheduler-commit相关指标,事务处理耗时和锁等待时间)
    • Raft处理耗时:tikv-details -> duration(Raft propose/io相关指标,Raft处理、日志写入和提交耗时)

PD

  • 服务监控:dashboard(PD服务的整体监控情况)
  • Region状态:region health(Region的健康状态,如empty region)
  • 负载均衡:statistic -> balance(Store的分布情况,关注TiKV扩缩容时的均衡性)
  • 热点统计:statistic -> hot write/read regions(写/读热点Region的识别)

通过这样的优化和重组,监控指标的结构更加清晰,便于理解和分析。同时,也更容易在监控系统中进行配置和可视化展示。

相关文章

网友评论

      本文标题:TIDB~常用监控指标

      本文链接:https://www.haomeiwen.com/subject/bbxecjtx.html