Hyperledger Fabric 1.4 特性调研之Oper

作者: RaeSnow | 来源:发表于2019-07-07 23:08 被阅读2次

    Operations Service提供监控管理服务,主要包括:

    • 日志等级管理(/logspec):动态获取和设置peer和orderer的日志等级。
    • 健康检查(/healthz ):检查peer和orderer是否存活以及健康状态。
    • 运维信息监控(/metrics ):提供运维指标数据,支持Prometheus和StatsD统计数据。

    适用场景

    • 日志等级管理:适用于联盟链管理人员或者开发人员对Fabric的日志等级进行实时变更以定位问题。
    • 健康检查:可以获知节点的健康状况,兼容Kubernetes的容器检测探针liveness probe等。
    • 运维信息监控:主要对外提供运维信息数据,适用于联盟链管理人员对Fabric的运行情况进行实时监控;可以支持第三方运维工具的集成,对Fabric运行状况和性能进行分析。

    技术实现

    Operation Service在peer或orderer启动的过程中,创建了一个http服务器处理日志等级管理、健康检查和运维信息获取三类请求。

    1)日志等级管理

    日志管理主体功能模块位于common/flogging,主要基于高性能的zap日志库,对zapcore进行了定制开发。通过重写zapcore的Check函数(common/flogging/core.go,在Write之前调用),对将要写入的日志进行等级判断,实现日志等级的实时变更。

    2)健康检查

    健康检查通过查询Docker服务的状态来确定peer和orderer是否仍处于健康状态。只要结构体实现HealthCheck(context.Context) error(位于github.com/hyperledger/fabric-lib-go/healthz/checker.go)的健康检查接口,并且通过RegisterChecker函数进行注册,则可以实现对应功能的健康检查。官网上说暂时只支持对docker容器的检查,目前本文调研时使用的版本(commitID为334a66f17e91666d583ec1e5720419de38153ebd)可以支持如下检查:

    • peer:couchdb是否可以正常连接;docker容器是否可以连接;
    • orderer:是否可以向kafka发送消息。

    3)运维信息监控

    运维信息监控包括Prometheus和StatsD两种第三方组件的接入:

    A. Prometheus

    Prometheus是开源的监控框架。Fabric支持Prometheus接入,主要使用go-kit库和Prometheus库。
    Prometheus记载的时序数据分为四种:Counter, Gauge, Histogram, Summary。Fabric仅使用了前三种,这三种类型的简介如下:

    • Counter:单调递增的计数器,常用于记录服务请求总量、任务完成数目、错误总数等。
    • Gauge:一个单独的数值,可以增加或减少,常用于记录内存使用率、磁盘使用率、并发请求数等。
    • Histogram:直方图采样数据,对一段时间范围内的数据进行采样,按照指定区间和总数进行统计,会生成三个记录数据<basename>_bucket,<basename>_count和<basename>_sum。其中bucket形式为<basename>_bucket{le="<upper inclusive bound>"};count是bucket数目,即<basename>_bucket{le="+Inf"}的值;sum是总数。
      Fabric在需要记录信息的模块,创建相应的结构体,比如peer endorser模块的EndorserMetrics:
    var (
        proposalDurationHistogramOpts = metrics.HistogramOpts{
            Namespace:    "endorser",
            Name:         "propsal_duration",
            Help:         "The time to complete a proposal.",
            LabelNames:   []string{"channel", "chaincode", "success"},
            StatsdFormat: "%{#fqname}.%{channel}.%{chaincode}.%{success}",
        }
    
        receivedProposalsCounterOpts = metrics.CounterOpts{
            Namespace: "endorser",
            Name:      "proposals_received",
            Help:      "The number of proposals received.",
        }
    
        successfulProposalsCounterOpts = metrics.CounterOpts{
            Namespace: "endorser",
            Name:      "successful_proposals",
            Help:      "The number of successful proposals.",
        }
        ……
    )
    func NewEndorserMetrics(p metrics.Provider) *EndorserMetrics {
        return &EndorserMetrics{
            ProposalDuration:         p.NewHistogram(proposalDurationHistogramOpts),
            ProposalsReceived:        p.NewCounter(receivedProposalsCounterOpts),
            SuccessfulProposals:      p.NewCounter(successfulProposalsCounterOpts),
            ProposalValidationFailed: p.NewCounter(proposalValidationFailureCounterOpts),
            ProposalACLCheckFailed:   p.NewCounter(proposalChannelACLFailureOpts),
            InitFailed:               p.NewCounter(initFailureCounterOpts),
            EndorsementsFailed:       p.NewCounter(endorsementFailureCounterOpts),
            DuplicateTxsFailure:      p.NewCounter(duplicateTxsFailureCounterOpts),
        }
    }
    

    Fabric将需要记录的信息写入相应的指标记录器中,代码如下:

    // ProcessProposal process the Proposal
    func (e *Endorser) ProcessProposal(ctx context.Context, signedProp *pb.SignedProposal) (*pb.ProposalResponse, error) {
        // start time for computing elapsed time metric for successfully endorsed proposals
        startTime := time.Now()
        // 请求接收数目加1
        e.Metrics.ProposalsReceived.Add(1)
    ……
                meterLabels := []string{
                    "channel", chainID,
                    "chaincode", hdrExt.ChaincodeId.Name + ":" + hdrExt.ChaincodeId.Version,
                    "success", strconv.FormatBool(success),
                }
                // 添加请求时长值
                e.Metrics.ProposalDuration.With(meterLabels...).Observe(time.Since(startTime).Seconds())
    

    目前Fabric统计的指标具体参见:https://hyperledger-fabric.readthedocs.io/en/release-1.4/metrics_reference.html

    B. StatsD

    StatsD是一个简单的网络守护进程,基于 Node.js,通过 UDP 或者 TCP 方式侦听各种统计信息,并发送聚合信息到后端服务,如 Graphite。Fabric支持StatsD接入,主要使用go-kit库,记载的时序数据也是分为Counter, Gauge, Histogram(实际上是StatsD中的Timer)三种,使用逻辑和Prometheus类似,但是读取数据的方式上看,Prometheus是从Fabric拉取数据,而StatsD是Fabric向StatsD推送数据。

    实际操作

    Operations Service可以配置监听地址和TLS,配置内容如下:

    operations:    # host and port for the operations server    listenAddress: 127.0.0.1:9443    # TLS configuration for the operations endpoint    tls:        # TLS enabled        enabled: false        # path to PEM encoded server certificate for the operations server        cert:            file:        # path to PEM encoded server key for the operations server        key:            file:        # most operations service endpoints require client authentication when TLS        # is enabled. clientAuthRequired requires client certificate authentication        # at the TLS layer to access all resources.        clientAuthRequired: false        # paths to PEM encoded ca certificates to trust for client authentication        clientRootCAs:            files: []
    

    1)日志等级管理

    查看日志等级可以使用如下命令:

    curl http://127.0.0.1:9443/logspec
    

    其中地址和端口为peer或orderer映射出的地址和端口(默认端口是9443),获得信息示例如下:

    {"spec":"info"}
    

    设置日志等级可以使用如下命令:

    curl -i -X PUT -H "Content-Type: application/json" -d "{\"spec\":\"debug\"}" http://127.0.0.1:9443/logspec
    

    设置以后可以查看log,实时生效。
    设置日志等级时传入参数的格式如下,可以支持多模块不同日志等级。

    [<logger>[,<logger>...]=]<level>[:[<logger>[,<logger>...]=]<level>...]
    

    目前,不同模块设置不同日志等级的情况,只有官网提供的修改合约日志等级的参数,如下所示:

    {"spec":"chaincode=debug:info"}
    

    2)健康检查

    查看健康情况可以使用如下命令:

    curl http://127.0.0.1:9443/healthz
    

    其中地址和端口为peer或orderer映射出的地址和端口(默认端口是9443),正常情况下获得信息示例如下:

    {"status":"OK","time":"2019-06-04T09:31:39.2034071Z"}
    

    目前peer可以检查docker容器和couchdb是否可以正常连接;orderer可以检查kafka是否可以向其发送消息。如果peer的couchdb容器宕机了,获得信息如下:

    {
        "status": "Service Unavailable",
        "time": "2019-06-05T03:33:58.4322205Z",
        "failed_checks": [
            {
                "component": "couchdb",
                "reason": "failed to connect to couch db [Head http://couchdb0:5984: dial tcp: lookup couchdb0 on 127.0.0.11:53: no such host]"
            }
        ]
    }
    

    3)运维信息监控

    Prometheus

    A. 安装Prometheus

    首先,从官网(https://prometheus.io/download/)下载Prometheus的软件包,直接解压到相应目录即可,命令如下:

    tar xvfz prometheus-*.tar.gz
    cd prometheus-*
    

    B. 修改Prometheus相关配置文件

    【此处使用fabric-sample中提供的first-network示例】
    修改Fabric的docker-compose.yaml文件,在peer的环境变量中添加:

    - CORE_METRICS_PROVIDER=prometheus
    

    在orderer的环境变量中添加:

    - CORE_METRICS_PROVIDER=prometheus
    

    需要修改prometheus.yml文件,添加Fabric环境中的peer和orderer参数,具体参照如下内容:

    # my global config
    global:
      scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
      evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
      # scrape_timeout is set to the global default (10s).
    
      # Attach these labels to any time series or alerts when communicating with
      # external systems (federation, remote storage, Alertmanager).
      external_labels:
        monitor: 'codelab-monitor'
    
    # Alertmanager configuration
    alerting:
      alertmanagers:
      - static_configs:
        - targets:
          # - alertmanager:9093
    
    # Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
    rule_files:
      # - "second_rules.yml"
    
    # A scrape configuration containing exactly one endpoint to scrape:
    scrape_configs:
      - job_name:       'fabric'
    
        # Override the global default and scrape targets from this job every 5 seconds.
        scrape_interval: 5s
    
        static_configs:
          - targets: ['localhost:9443']
            labels:
              group: 'peer0_org1'
    
          - targets: ['localhost:10443']
            labels:
              group: 'peer1_org1'
    
          - targets: ['localhost:11443']
            labels:
              group: 'peer0_org2'
    
          - targets: ['localhost:12443']
            labels:
              group: 'peer1_org2'
    
          - targets: ['localhost:8443']
            labels:
              group: 'orderer'
    

    主要关注scrape_configs,其中添加了名字为fabric的job,其中static_configs中添加需要监控的节点,targets中填写operations服务的地址和监听端口(默认是9443),labels.group中填写分组的名称。以上示例把peer分成不同的组,也可以根据组织合并为一个组,如下所示:

    static_configs:
          - targets: ['localhost:9443', 'localhost:10443']
            labels:
              group: 'peers_org1'
    
          - targets: ['localhost:11443', 'localhost:12443']
            labels:
              group: 'peers_org2'
    

    C. 启动Prometheus

    首先启动Fabric环境,待Fabric环境启动完成后,运行如下命令启动Prometheus:

    ./prometheus --config.file=prometheus.yml
    

    使用浏览器访问http://localhost:9090即可查看Prometheus监控面板,可以选择指标或者写入查询语句,点击execute查看图表,如下图所示:

    image.png

    D. 可以配置Grafana可视化工具

    参照官网说明(https://grafana.com/grafana/download)下载Grafana软件后,使用浏览器访问http://localhost:3000(默认用户名admin,密码admin),配置数据源为Prometheus,即可定制可视化监控界面。具体流程可参照https://prometheus.io/docs/visualization/grafana/。界面如下图所示:

    image.png

    StatsD

    A. 下载StatsD + Graphite + Grafana的docker镜像

    Graphite主要由监听器carbon,时序数据库whisper和图形展示django-webapp三个组件构成。一般使用StatsD + Graphite + Grafana这三个框架搭建运维可视化界面。该镜像集成了StatsD + Graphite + Grafana 4 + Kamon(https://hub.docker.com/r/kamon/grafana_graphite)。使用如下命令拉取镜像:

    docker pull kamon/grafana_graphite
    

    B. 启动docker容器

    使用如下命令启动容器:

    docker run -d\
     --name graphite\
     --restart=always\
     -p 80:80\
     -p 81:81\
     -p 2003:2003\
     -p 8125:8125/udp\
     -p 8126:8126\
     kamon/grafana_graphite
    

    C. 修改Fabric配置文件

    【此处使用fabric-sample中提供的first-network示例】
    修改Fabric的docker-compose.yaml文件,在peer的环境变量中添加:

    - CORE_METRICS_PROVIDER= statsd
    - CORE_METRICS_STATSD_PREFIX=peer0_org1
    - CORE_METRICS_STATSD_ADDRESS=192.168.101.76:8125
    

    在orderer的环境变量中添加:

    - ORDERER_METRICS_PROVIDER=statsd
    - ORDERER_METRICS_STATSD_PREFIX=orderer
    - ORDERER_METRICS_STATSD_ADDRESS=192.168.101.76:8125
    

    如上所示,需要配置prefix用于区分节点,配置address是StatsD的地址和端口,即docker容器映射的地址和端口。

    D. 查看界面

    访问http://localhost:81可以查看Graphite界面,如下:

    image.png

    访问http://localhost可以查看Grafana界面,具体配置方法见前面Prometheus的描述。界面如下:

    image.png

    相关文章

      网友评论

        本文标题:Hyperledger Fabric 1.4 特性调研之Oper

        本文链接:https://www.haomeiwen.com/subject/tgcwhctx.html