Prometheus对接Grafana和睿象云

第一章 Prometheus入门

1.1 Prometheus的特点

Prometheus是一个开源的完整监控解决方案，其对传统监控系统的测试和告警模型进行了彻底的颠覆，形成了基于中央红的规则计算、统一分析和告警的新模型，相比于传统监控系统，Prometheus具有以下特点

1.1.1 易于管理

Prometheus核心部分只有一个单独的二进制文件，不存在任何的第三方依赖库，唯一需要的就是本地磁盘，因此不会有潜在级联故障的风险
Prometheus基于pull模型的架构方式，可以在任何地方（本地电脑，开发环境，测试环境）搭建我们的监控系统
对于一些复杂的情况，还可以使用Prometheus服务发现（Service Discovery）的能力动态管理监控指标

1.1.2 监控服务的内部运行状态

Prometheus鼓励用户监控服务的内部状态，基于Prometheus丰富的Client库，用户可以轻松的在应用程序中添加对Prometheus的支持，从而让用户获取服务和应用内部真正的运行状态

1.1.3 强大的数据模型

所有采集的监控数据均以指标（metric）的形式保存在内置的时间序列数据库当中（TSDB）。所有的样本除了基本的指标名称以外，还包含一组用于描述该样本特征的标签。
每一条时间序列由指标名称以及一组标签唯一标识，每条时间序列按照时间的先后顺序存储一系列的样本值

1.1.4 强大的查询语言PromQL

Prometheus内置了一个强大的数据查询语言PromQL。通过PromQL可以实现对监控数据的查询、聚合。同时PromQL也被应用于数据可视化（如Grafana）以及告警当中。
通过PromQL可以轻松回答类似于以下问题
- 在过去一段时间中95%应用延迟时间的分布范围？
- 预测在4小时后，磁盘空间占用大致会是什么情况？
- CPU占用率前5位服务有哪些（过滤）

1.1.5 高效

对于监控系统而言，大量的监控任务必然导致有大量的数据产生。而Prometheus可以高效地处理这些数据，对于单一Prometheus Server实例而言它可以处理
- 数以百万的监控指标
- 每秒处理数十万的数据点

1.1.6 可扩展

可以在每个数据中心、每个团队运行独立的Prometheus Server。Prometheus对于联邦集群的支持，可以让多个Prometheus实例产生一个逻辑集群，当单实例Prometheus Server处理的任务量过大时，通过使用功能分区+联邦集群可以对其进行扩展

1.1.7 易于集成

使用Prometheus可以快速搭建监控服务，并且可以非常方便地在应用程序中进行集成
Prometheus还可以与其他的监控系统进行集成

1.1.8 可视化

Prometheus Server中自带的UI，可以方便地直接对数据进行查询，并且支持直接以图形化的形式展示数据
最新的Grafana可视化工具也已经提供了完整的Prometheus的支持，基于Grafana可以创建更加精美的监控图标

1.1.9 开放性

通常来说当我们需要监控一个应用程序时，一般需要该应用程序提供对相应监控系统协议的支持，因此应用程序会与所选择的监控系统进行绑定，为了减少这种绑定所带来的限制，对于决策者而言要么你就直接在应用中集成该监控指标的支持，要么就在外部创建单独的服务来适配不同的监控系统
Prometheus的client library的输出格式不止支持Prometheus的格式化数据，也可以输出支持其他监控系统的格式化数据，比如Graphite。因此你甚至可以在不使用Prometheus的情况下，采用Prometheus的client library来让你的应用程序支持监控数据采集。

1.2 Prometheus的架构

1.2.1 Prometheus的生态圈组件

官网架构

1.2.2 架构理解

存储计算层
- Prometheus Server里面包含了存储引擎和计算引擎
- Retrieval组件为取数组件，它会主动从Pushgateway或者Exporter拉取指标数据
- Server Discovery，可以动态发现要监控的目标
- TSDB，数据核心存储与查询
- HTTP server 对外提供HTTP服务
采集层
- 采集层分两类，一类是生命周期较短的作业，还有一类是生命周期较长的作业
  - 短作业：直接通过API，在退出时间指标推送给Pushgateway
  - 长作业：Retrieval组件直接从Job或者exporter拉取数据
应用层
- 应用层主要分为两种，一种是AlertManager,另一种是数据可视化
  - AlertManager
    - 对接Pagerduty，是一套付费的监控报警系统，可实现短信告警，五分钟无人ack打电话通知，仍然无人ack，通知值班人员Manager、发邮件......
  - 数据可视化
    - Prometheus web UI
    - Grafana
    - API Clients

第二章 Prometheus的安装

官网：https://prometheus.io
下载地址：https://prometheus.io/download/

2.1 安装Prometheus Server

2.1.1 上传安装包

[root@VM-32-18-centos ~]# cd  /opt/src/
[root@VM-32-18-centos src]# ls
alertmanager-0.23.0.linux-amd64.tar.gz  prometheus-2.30.1.linux-amd64.tar.gz
grafana-5.4.2-1.x86_64.rpm              pushgateway-1.4.1.linux-amd64.tar.gz
node_exporter-1.2.2.linux-amd64.tar.gz

2.1.2 解压安装包

[root@VM-32-18-centos src]# tar  -xvf  prometheus-2.30.1.linux-amd64.tar.gz -C  /opt/
[root@VM-32-18-centos opt]# mv  prometheus-2.30.1.linux-amd64  prometheus-2.30.1

2.1.3 修改配置文件

[root@VM-32-18-centos prometheus]# vim  prometheus.yml 
- job_name: "prometheus"

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
      - targets: ["172.16.32.18:9090"]
  #添加pushgateway配置
  - job_name: 'pushgateway'
    static_configs:
    - targets: ['172.16.32.18:9091']
      labels:
        instance: pushgateway
  #添加node_exporter配置
  - job_name: 'node_exporter'
      static_configs:
      - targets: ['172.16.32.18:9100']

#配置说明
1、global配置块：控制Prometheus服务器的全局配置
   scrape_interval：配置拉取数据的时间间隔，默认为1分钟
   evaluation_interval：规则验证（生成alert）的时间间隔，默认为1分钟
2、rule_files配置块：规则配置文件
3、scrape_configs配置块：配置采集目标相关，Prometheus监视的目标。Prometheus自身的运行信息可以通过HTTP访问，所有Prometheus可以监控自己的运行数据
   job_name：监控作业的名称
   static_configs：表示静态目标配置，就是固定从某个target拉取数据
   targets：指定监控的目标，其实就是从哪儿拉取数据，Prometheus会从http://172.16.32.18：9090/metrics上拉取数据
   Prometheus是可以在运行时自动加载配置的，启动时需要添加：--web.enable-lifecycle

2.2 安装Pushgateway

Prometheus在正常情况下是采用拉取模式从产生metric的作业或者exporter（比如专门监控主机的NodeExporter）拉取监控数据。但是我们要监控的是Flink on Yarn作业，想要让Prometheus自动发现作业的提交、结束以及自动拉取数据显然是比较困难的。Pushgateway就是一个中转组件，通过配置Flink on yarn作业将metric推到Pushgateway，Prometheus再从Pushgateway拉取就可以啦

2.2.1 解压安装包

[root@VM-32-18-centos src]# tar  -xvf  pushgateway-1.4.1.linux-amd64.tar.gz -C  /opt/
[root@VM-32-18-centos opt]# mv pushgateway-1.4.1.linux-amd64  pushgateway

2.3 安装AlertManager

2.3.1 解压安装包

[root@VM-32-18-centos src]# tar  -xvf  alertmanager-0.23.0.linux-amd64.tar.gz -C  /opt/
[root@VM-32-18-centos opt]# mv alertmanager-0.23.0.linux-amd64/  alertmanager

2.4 安装Node Exporter

在Prometheus的架构设计中，Prometheus Server主要负责数据的收集，存储并且对外提供数据查询支持，而实际的监控样本数据的收集则是由exporter完成，因此为了能够监控某些东西，如主机的CPU利用率，我们需要使用到exporter。Prometheus周期性的从exporter暴露的HTTP服务地址（通常是/metrics）拉取监控样本数据
exporter可以是一个相对开发的概念，其可以是一个独立运行的程序独立于监控目标以外，也可以是直接内置在监控目标中。只要能够向Prometheus提供标准格式的监控样本数据即可。
为了能够采集到主机的运行指标如CPU、内存、硬盘等信息，我们可以用Node exporter，只需要下载解压即可运行。

2.4.1 解压安装包

[root@VM-32-18-centos src]# tar -xvf  node_exporter-1.2.2.linux-amd64.tar.gz -C  /opt/
[root@VM-32-18-centos opt]# mv  node_exporter-1.2.2.linux-amd64/  node_exporter
#启动服务
[root@VM-32-18-centos node_exporter]# pwd
/opt/node_exporter
[root@VM-32-18-centos node_exporter]# ./node_exporter 
#通过地址加9100端口访问，可以看到node_exporter获取到当前主机的所有监控数据

#设置服务开机自启
[Unit]
Description=node_exporter
Documentation=https://github.com/prometheus/node_exporter
After=network.target

[Service]
Type=simple
ExecStart=/opt/node_exporter/node_exporter
Restart=on-failure

[Install]
WantedBy=multi-user.target

[root@VM-32-18-centos ~]# systemctl restart  node_exporter.service
[root@VM-32-18-centos ~]# systemctl enable  node_exporter

2.5 启动服务

#启动Prometheus，在后台运行
[root@VM-32-18-centos prometheus]# nohup ./prometheus --config.file=prometheus.yml >./prometheus.log 2>&1 & 

#启动pushgateway
nohup ./pushgateway --web.listen-address :9091 > ./pushgateway.log 2>&1  &

第三章 PromQL介绍

Prometheus通过指标名称以及对应的一组标签唯一定义一条时间序列。指标名称反映了监控样本的基本标识，而label则在这个基本特征上为采集到的数据提供了多种特征维度。用户可以基于这些特征维度过滤、聚合、统计从而产生新的计算后的一条时间序列。promQL是Prometheus内置的数据查询语言，其提供对时间序列数据丰富的查询，聚合以及逻辑运算能力的支持，并且被广泛应用在Prometheus的日常应用当中，包括对数据查询、可视化、告警处理当中。可以这么说，promQL是Prometheus所有应用场景的基础，理解和掌握promQL是Prometheus入门的第一课。

3.1 基本用法

3.1.1 查询时间序列

当Prometheus通过exporter采集到相应的监控指标样本数据后，我们就可以通过promQL对监控样本数据进行查询

当我们直接使用监控指标名称查询时，可以查询该指标下的所有时间序列

#查询Prometheus中所有http请求
prometheus_http_requests_total
prometheus_http_requests_total{}
#该表达式会返回指标名称的所有时间序列
prometheus_http_requests_total{code="200", handler="/-/ready", instance="119.91.130.53:9090", job="prometheus"}
2
#promQL还支持用户根据时间序列的标签匹配模式来对时间序列进行过滤，目前主要支持两种匹配模式：完全匹配和正则匹配

#完全匹配模式：支持使用 = 和 ！= 两种
prometheus_http_requests_total{handler="/api/v1/metadata"}
#正则匹配模式：多个表达式之间使用|进行分离
 prometheus_http_requests_total{code=~"200|302",handler="/api/v1/rules"}

3.1.2 范围查询

直接通过类似于promQL表达式查询时间序列时，返回值中只会包含该时间序列中的最新的一个样本值，这样的返回结果我们称之为瞬时向量。而对应的这样的表达式称之为_瞬时向量表达式
而如果我们想过去一段时间范围内的样本数据时，我们则需要使用区间向量表达式。区间向量表达式和瞬时向量表达式之间的差异在于区间向量表达式中我们需要定义时间选择范围，时间范围通过时间范围选择器【】进行定义。
```
#查询最近5分钟内的样本数据
prometheus_http_requests_total{}[5m]  #区间向量表达式
```

3.1.3 时间位移操作

在瞬时向量表达式或区间向量表达式中，都是以当前时间为基准

使用位移操作。位移操作的关键字是offset

#查询5分钟前的样本数据
prometheus_http_requests_total{} offset 5m
#查询昨天一天的区间数据
prometheus_http_requests_total{}[1d] offset 1d

3.1.4 使用聚合操作

一般来说，如果描述样本特征的标签在并非唯一的情况下，通过promQL查询数据，会返回多条满足这些特征维度的时间序列。而promQL提供的聚合操作可以用来对这些时间序列进行处理，形成一条新的时间序列

#查询系统所有http请求的总量
sum(prometheus_http_requests_total)
#按照mode计算主机CPU的平均使用时间
avg(node_cpu_seconds_total) by (mode)
#按照主机查询各个主机的CPU使用率
sum(sum(irate(node_cpu_seconds_total{mode!='idle'}[5m])) / sum(irate(node_arp_entries[5m]))) by (instance)

3.1.5 标量和字符串

标量（Scalar）：一个浮点型的数字值
- 标量只有一个数字，没有时序
- 用户可以通过内置函数scalar（）将单个瞬时向量转换为标量
字符串：一个简单的字符串值
- 直接使用字符串，作为promQL的表达式，则会直接返回字符串

3.1.6 合法的PromQL表达式

所有的promQL表达式必须至少包含一个指标名称，或者一个不会匹配到的空字符串的标签过滤器

3.2 PromQL操作符

使用PromQL除了能够方便的按照查询和过滤时间序列外，PromQL还支持丰富的操作符，用户可以使用这些操作符对进一步的对事件序列进行第二次加工，这些操作符包括：数学运算符、逻辑运算符、布尔值运算符等

第四章 Prometheus和Flink集成

Flink提供的metrics可以在Flink内部收集一些指标，通过这些指标让开发人员更好地理解作业或集群的状态

4.1 拷贝jar包

#将plugns下的jar包复制到lib目录下
[root@VM-32-18-centos metrics-prometheus]# cp flink-metrics-prometheus-1.12.0.jar /opt/flink-prometheus/lib/

4.2 修改Flink配置

#在配置文件中添加下面配置
#### 与Prometheus集成配置  ####
metric.reporter.prometheus.class: org.apache.flink.metrics.promethus.PrometheusPushGatewayReporter
# pushgateway的主机名与端口信息
metrics.reporter.promgateway.host: 119.91.130.53
metrics.reporter.prometheus.port: 9091
# Flink metric在前端展示的标签（前缀）与随机后缀
metrics.reporter.promgateway.jobName: flink-metrics-ppg
metrics.reporter.promgateway.randomJobNameSuffix: true
metrics.reporter.promgateway.deleteOnShtdown: false
metrics.reporter.promgateway.interval: 30 SECONDS

4.3 启动Flink

#需要有hadoop环境
[root@VM-32-18-centos bin]# ./start-cluster.sh

4.4 查看Prometheus监控指标

#登录prometheus控制台界面，查看Prometheus是否有flink的监控指标

第五章 Prometheus和Grafana集成

grafana是一款采用go语言编写的开源应用，主要用于大规模指标数据的可视化展现，是网络架构和应用分析中最流行的时序数据展示工具，目前已经支持绝大部分常用的时序数据库。
下载地址：https://grafana.com/grafana/download

5.1 上传并解压

[root@VM-32-18-centos src]# wget https://dl.grafana.com/enterprise/release/grafana-enterprise-8.2.0.linux-amd64.tar.gz
[root@VM-32-18-centos src]# tar  -zxvf  grafana-enterprise-8.2.0.linux-amd64.tar.gz -C  /opt/

5.2 启动Grafana

[root@VM-32-18-centos src]# cd  /opt/grafana-8.2.0/bin/
[root@VM-32-18-centos bin]# nohup ./grafana-server web > ./grafana.log 2>&1 &
#打开web：http://119.91.53.130:3000 默认用户名和密码：admin

5.3 添加数据源Prometheus

1、点击配置，点击Data Sources
2、add  data source
3、添加Prometheus的地址加端口
4、保存配置

5.4 手动创建仪表盘Dashboard

1、点击左上角+号，创建仪表盘
2、修改标题名称
3、选择data source
4、添加监控指标
5、ctrl+enter应用监控指标
6、保存配置

5.5 添加Node Exporter模板

登录https://grafana.com/grafana/dashboards
搜索node_exporter模板
下载json文件
点击左上角+号，选择import
导入json文件
选择Prometheus监控

第六章集成第三方告警平台睿象云

邮件通知常会出现接收不及时的问题，为确保通知信息被及时接收，可通过配置Prometheus或者Grafana与第三方平台告警平台（睿象云）集成，进而通过第三方平台提供的多种告警媒介（例如电话，短信）等发送告警信息

6.1 注册睿象云账号

官方网站：https://www.aiops.com
```
#登录官方网站注册账号信息
```

6.2 集成Grafana

在睿象云网站点击集成Grafana工具
配置应用名称，保存并获取应用key

6.2.1 Grafana配置Webhook URL

1、在Grafana中创建Notification channel，选择类型为Webhook；

2、推荐选中Send on all alerts和Include image，Cloud Alert体验更佳；

3、将第一步中生成的Webhook URL填入Webhook settings Url；

URL格式：
http://api.aiops.com/alert/api/event/grafana/v1/71245665f21047b38527fb3bf127c9fb/

4、Http Method选择POST；

5、Send Test&Save；

6.2.2 将配置的Webhook Notification Channel添加到Grafana Alert中

6.3 配置分配策略

登录睿象云界面，选择配置，配置分派策略

6.4 配置通知策略

登录睿象云界面，选择配置，配置通知策略

6.5 测试电话、短信和邮件通知

通过Prometheus监控指标到Grafana展示，最后由睿象云发送告警通知