SkyWalking

作者: 清空_2995 | 来源:发表于2020-10-28 11:44 被阅读0次

skywalking监控微服务
微服务 13：微服务的调用链路追踪 - Skywalking（
分布式skywalking链路追踪详细教程
Skywalking的流程
SkyWalking之一入门
搭建 SkyWalking 服务（For ElasticSear
Skywalking部署
用SkyWalking监控MySQL（一）工具与方案
mac下搭建skywalking 8.7.0
SpringCloud微服务实战——搭建企业级开发框架（三十三）

Skywalking(简称SW)是分布式系统的应用程序性能监视(APM)工具，专为微服务、云原生和容器架构而设计，提供分布式追踪、服务网格遥测分析、度量聚合和可视化一体化解决方案。通过探针自动收集所需的指标，并进行分布式追踪，具有无代码嵌入，支持众多中间件，agent种类全面，性能消耗低等优点。

下载
在github的Skywalking项目中下载最新版安装包官网地址
解压部署

tar -zxvf apache-skywalking-apm-6.5.0.tar.gz

在服务器上解压该安装包，并进入config文件夹，对application.yml进行设置，主要设置如下几个部分

core:
  selector: ${SW_CORE:default}
  default:
    # Mixed: Receive agent data, Level 1 aggregate, Level 2 aggregate
    # Receiver: Receive agent data, Level 1 aggregate
    # Aggregator: Level 2 aggregate
    role: ${SW_CORE_ROLE:Mixed} # Mixed/Receiver/Aggregator
    restHost: ${SW_CORE_REST_HOST:10.26.110.8}
    restPort: ${SW_CORE_REST_PORT:12800}
    restContextPath: ${SW_CORE_REST_CONTEXT_PATH:/}
    restMinThreads: ${SW_CORE_REST_JETTY_MIN_THREADS:1}
    restMaxThreads: ${SW_CORE_REST_JETTY_MAX_THREADS:200}
    restIdleTimeOut: ${SW_CORE_REST_JETTY_IDLE_TIMEOUT:30000}
    restAcceptorPriorityDelta: ${SW_CORE_REST_JETTY_DELTA:0}
    restAcceptQueueSize: ${SW_CORE_REST_JETTY_QUEUE_SIZE:0}
    gRPCHost: ${SW_CORE_GRPC_HOST:10.26.110.8}
    gRPCPort: ${SW_CORE_GRPC_PORT:11800}
    gRPCSslEnabled: ${SW_CORE_GRPC_SSL_ENABLED:false}
    gRPCSslKeyPath: ${SW_CORE_GRPC_SSL_KEY_PATH:""}
    gRPCSslCertChainPath: ${SW_CORE_GRPC_SSL_CERT_CHAIN_PATH:""}
    gRPCSslTrustedCAPath: ${SW_CORE_GRPC_SSL_TRUSTED_CA_PATH:""}
storage:
  selector: ${SW_STORAGE:elasticsearch7}

主要修改core中0.0.0.0host改为ip，便于访问。storage修改为es7，配合elk可以清晰查看日志。

接着修改webapp中webapp.xml配置

server:
  port: 8081 #前端ui访问端口

collector:
  path: /graphql
  ribbon:
    ReadTimeout: 10000
    # Point to all backend's restHost:restPort, split by ,
    listOfServers: 10.26.110.8:12800 #修改为本机ip便于访问

启动
bin目录下的startup.sh启动
监控
需要将skywalking-agent探针包上传到被监控JAR的服务器上并重新启动被监控JAR

java -javaagent:/path/to/skywalking-agent/skywalking-agent.jar -Dskywalking.agent.service_name=nacos-provider -Dskywalking.collector.backend_service=ip:11800 -jar yourApp.jar

@echo on
  java -Dlogback.configurationFile=config/logback.xml -jar bin/denza-registerserver-3.0.jar

界面使用总结

image.png
指标盘界面通识

image.png
最上方为功能区，用来切换SW不同的功能，具体功能将在后续篇章介绍；
功能区下方为指标对象，SW的监控对象分为服务、端点和实例三种；
右下角为时间区，用来设定统计指标的时间域（所有的指标展示都依赖与这个时间范围）。点击右上“自动”按钮可以开启自动刷新模式；
其余空间为指标盘展示区，用来展示各种指标信息。

这里着重介绍下 SkyWalking 中最重要的三个概念：

服务(Service) ：表示对请求提供相同行为的一系列或一组工作负载。在使用 Agent 或 SDK 的时候，你可以定义服务的名字。如果不定义的话，SkyWalking 将会使用应用名称上定义的名字，为了和告警服务联动，这里推荐大家配置成应用中心中的应用名。

这里，我们可以看到应用的服务为 "is-travel-business"，这是在agent 环境变量 SW_AGENT_NAME 中所定义的。

端点(Endpoint) ：对于特定服务所接收的请求路径, 如 HTTP 的 URI 路径和 gRPC 服务的类名 + 方法签名。

这里，我们可以看到 Spring Boot 应用的一个端点，为 API 接口 /api/banner/{id}。

服务实例(Service Instance) ：上述的一组工作负载中的每一个工作负载称为一个实例。就像 Kubernetes 中的 pods 一样, 服务实例未必就是操作系统上的一个进程。但当你在使用 Agent 的时候, 一个服务实例实际就是操作系统上的一个真实进程。

这里，我们可以看到 Spring Boot 应用的实例为 {进程UUID}@{hostname}，由 Agent 自动生成。

SW所有的指标信息都是围绕三者展开的。

1. 指标仪表盘

1.1 服务指标

点击仪表盘，选择要查询的应用，如“is-file-store”, 再切换仪表盘为“Service”模式，即可查询对应服务的指标

image.png

服务主要指标包括：

ApdexScore ：性能指数，Apdex(Application Performance Index)是一个国际通用标准，Apdex 是用户对应用性能满意度的量化值。它提供了一个统一的测量和报告用户体验的方法，把最终用户的体验和应用性能作为一个完整的指标进行统一度量，其中最高为1最低为0；
ResponseTime：响应时间，即在选定时间内，服务所有请求的平均响应时间(ms)；
Throughput: 吞吐量，即在选定时间内，每分钟服务响应的请求量(cpm)
SLA: service level agreement，服务等级协议，SW中特指每分钟内响应成功请求的占比。

大盘中会列出以上指标的当前的平均值，和历史走势。

服务慢端点 Service Slow Endpoint

服务指标仪表盘会列举出当前服务响应时间最大的端点Top5，如果有端点的响应时间过高，则需要进一步关注其指标（点击可以复制端点名称）。

image.png

运行中的实例 Running ServiceInstance

该服务目前所有实例的吞吐量情况，通过此可以推断出实例之间的负载情况。如果发现某个实例吞吐量较低，就需要查询实例指标（如查询该实例是不是发生了GC，或则CPU利用率过高）

image.png

1.2 端点指标

如果发现有端点的响应时间过高，可以进一步查询该端点的指标信息。和服务指标类似，端点指标也包括吞吐量、SLA、响应时间等指标，这里不再赘述。

端点仪表盘会有如下特有信息：

Dependency Map: 依赖关系图，代表哪些服务在依赖（调用）该端点，如果是前端直接调用，会显示为用户（User）依赖中；
Slow Traces: 即慢调用请求记录，SW会自动列出当前时间段内端点最慢的调用记录和TraceID，通过这个ID可以在追踪功能找到具体的调用链信息，便于定位。

image.png

1.3 服务实例指标

选择服务的实例并切换仪表盘，即可查看服务某个实例的指标数据。除了常规的吞吐量、SLA、响应时间等指标外，实例信息中还会给出JVM的信息，如堆栈使用量，GC耗时和次数等。

image.png

1.4 DB 数据指标查询

除了服务本身的指标，SW也监控了服务依赖的DB指标。切换DB指标盘并选择对应DB实例，就可以看到从服务角度（client）来看该DB实例的吞吐量、SLA、响应时间等指标。

更进一步，该DB执行慢SQL会被自动列出，可以直接粘贴出来，便于定位耗时原因。

image.png

2. 拓扑结构

不同于仪表盘来展示单一服务的指标，拓扑图是来展示服务和服务之间的依赖关系。
用户可以选择单一服务查询，也可以将多个服务设定为一组同时查询。
点击服务图片会自动显示当前的服务指标；
SW会根据请求数据，自动探测出依赖的服务，DB和中间件等。
点击依赖线上的圆点，会显示服务之间的依赖情况，如每分钟吞吐量，平均延迟时间，和侦察端模式（client/Server）。

image.png

3. 请求追踪

当用户发现服务的SLA降低，或者某个具体的端口响应时间上扬明显，可以使用追踪功能查询具体的请求记录。
最上方为搜索区，用户可以指定搜索条件，如隶属于哪个服务、哪个实例、哪个端口，或者请求是成功还是失败；也可以根据上文提到的TraceID精确查询。
整个调用链上每一个跨度的耗时和执行结果都会被列出（默认是列表，也可选择树形结构和表格的形式）；
如果有步骤失败，该步骤会标记为红色。

image.png
点击跨度，会显示跨度详情，如果有异常发生，异常的种类、信息和堆栈都会被自动捕获；

image.png
如果跨度为数据库操作，执行的SQL也会被自动记录。

image.png

4. 性能剖析

追踪功能展示出的跨度是服务调用粒度的，如果要看应用实时的堆栈信息，可以选择性能剖析功能。
新建分析任务；
选指定的服务和端点作为分析对象；
设定采样频率和次数；

注意: 如果端点的响应时间小于监控间隔，可能会导致采样分析失败。

image.png

新建任务后，SW将开始采集应用的实时堆栈信息。采样结束后，用户点击分析即可查看具体的堆栈信息。

点击跨度右侧的“查看”，可以看到调用链的具体详情；
跨度目录下方是SW收集到的具体进程堆栈信息和耗时情况。

image.png

需要提醒的时候，性能剖析功能因为要实时高频率收集服务的JVM堆栈信息，对于服务本身有一定的性能消耗，只适用于耗时端点的行为分析。

5. 指标对比

当用户需要对比不同端点指标的关联情况的话，可以使用性能对比功能。选择待对比的端点和指标，SW将会列出相同时间段的指标记录。如下图中，两个端点虽然属于不同的应用，但是在响应时间的指标，表现出一定的关联性。实际上两个端点有依赖关系，一个响应时间变多，另一个也会变多。

image.png

参考原文

skywalking监控微服务
skywalking监控微服务 SkyWalking整体架构 SkyWalking环境部署 [https://im...
微服务 13：微服务的调用链路追踪 - Skywalking（
1：调用链路技术汇总 2：SkyWalking 快速应用 3：SkyWalking 界面 4：SkyWalking...
分布式skywalking链路追踪详细教程
skywalking是什么？ Skywalking 是一个分布式追踪（Trace）系统。除了 Skywalking...
Skywalking的流程
Skywalking的流程（本文已6.5.0为例）1.将skywalking下载下来2.解压skywalking文...
SkyWalking之一入门
个人专题目录 SkyWalking入门 1. Skywalking概述根据官方的解释，Skywalking是一个...
搭建 SkyWalking 服务（For ElasticSear
[TOC] 搭建 SkyWalking 服务（For ElasticSearch 7）关于SkyWalking的...
Skywalking部署
Skywalking 一、SkyWalking是什么 SkyWalking是分布式系统的应用程序性能监视工具，专为...
用SkyWalking监控MySQL（一）工具与方案
本文适用于SkyWalking v9.1.0。 SkyWalking简介 SkyWalking是一个分布式系统的应...
mac下搭建skywalking 8.7.0
skywalking的安装下载地址： skywalking下载通道[http://archive.apache....
SpringCloud微服务实战——搭建企业级开发框架（三十三）
Skywalking[https://github.com/apache/skywalking]是由国内开源爱...