Kubernetes 监控：Prometheus Operator + Thanos ---实践篇

具体参考网址：

本章用到的yaml文件地址：https://files.cnblogs.com/files/sanduzxcvbnm/operator_yaml.zip?t=1654593400

背景说明

依据官方文档进行部署，解决部署过程中出现的各种问题，并有所优化

以上缺少的部分可以根据实际情况进行修改而定

安装

git clone https://github.com/coreos/kube-prometheus.git
cd kube-prometheus/manifests

有俩文件需要修改镜像仓库，否则会拉取不到镜像
文件1：kubeStateMetrics-deployment.yaml =》 k8s.gcr.io/kube-state-metrics/kube-state-metrics:v2.4.2 =》 bitnami/kube-state-metrics:2.4.2
文件2：prometheusAdapter-deployment.yaml =》 k8s.gcr.io/prometheus-adapter/prometheus-adapter:v0.9.1 =》 selina5288/prometheus-adapter:v0.9.1

有三个文件需要修改apiVersion （k8s版本是1.20.11，PodDisruptionBudget 看在1.20中还是v1beta1，修改为policy/v1beta1 ）
文件1：alertmanager-podDisruptionBudget.yaml =》 apiVersion: policy/v1 =》apiVersion: policy/v1beta1
文件2：prometheus-podDisruptionBudget.yaml =》 apiVersion: policy/v1 =》apiVersion: policy/v1beta1
文件3：prometheusAdapter-podDisruptionBudget.yaml =》 apiVersion: policy/v1 =》apiVersion: policy/v1beta1

需要新增的文件,保存在manifests目录下

文件1：prometheus-kubeControllerManagerService.yaml

apiVersion: v1
kind: Service
metadata:
  namespace: kube-system
  name: kube-controller-manager
  labels:
    app.kubernetes.io/name: kube-controller-manager
spec:
  clusterIP: None
  selector:
    component: kube-controller-manager
  ports:
  - name: https-metrics
    port: 10257
    targetPort: 10257
    protocol: TCP

文件2：prometheus-kubeSchedulerService.yaml

apiVersion: v1
kind: Service
metadata:
  namespace: kube-system
  name: kube-scheduler
  labels:
    app.kubernetes.io/name: kube-scheduler
spec:
  clusterIP: None
  selector:
    component: kube-scheduler
  ports:
  - name: https-metrics
    port: 10259
    targetPort: 10259
    protocol: TCP

# (执行kubectl apply -f setup/ 则会报错：The CustomResourceDefinition "prometheuses.monitoring.coreos.com" is invalid: metadata.annotations: Too long: must have at most 262144 bytes)
# 或者先执行 kubectl apply -f setup/ ，等出现上述报错后，再单独执行报错文件 kubectl create -f setup/0prometheusCustomResourceDefinition.yaml

kubectl create -f setup/

kubectl apply -f .
kubectl get pods -n monitoring
kubectl get svc -n monitoring

访问

针对 grafana、alertmanager 和 prometheus 都创建了一个类型为 ClusterIP 的 Service，当然如果我们想要在外网访问这两个服务的话可以通过创建对应的 Ingress 对象或者使用 NodePort 类型的 Service，我们这里为了简单，直接使用 NodePort 类型的服务即可，编辑 grafana、alertmanager-main 和 prometheus-k8s 这3个 Service，将服务类型更改为 NodePort:

# 将 type: ClusterIP 更改为 type: NodePort
$ kubectl edit svc grafana -n monitoring  
$ kubectl edit svc alertmanager-main -n monitoring
$ kubectl edit svc prometheus-k8s -n monitoring
$ kubectl get svc -n monitoring

注意: 这一步用浏览器访问会报错504，原因是设置了网络访问策略，删除对应的网络策略就可以了，使用ingress无法访问也是同样的解决办法

或者创建对应的 Ingress 对象

本机hosts文件需要添加自定义解析：

# cat alertmanager-ingress.yaml
---
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: alertmanager-ingress
  namespace: monitoring
spec:
  ingressClassName: nginx
  rules:
    - host: www.fff.com # 自定义域名，本机hosts配置解析
      http:
        paths:
          - backend:
              service:
                name: alertmanager-main
                port:
                  number: 9093
            path: /
            pathType: Prefix

# cat grafana-ingress.yaml
---
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: grafana-ingress
  namespace: monitoring
spec:
  ingressClassName: nginx
  rules:
    - host: www.eee.com # 自定义域名，本机hosts配置解析
      http:
        paths:
          - backend:
              service:
                name: grafana
                port:
                  number: 3000
            path: /
            pathType: Prefix

# cat prometheus-ingress.yaml
---
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: prometheus-ingress
  namespace: monitoring
spec:
  ingressClassName: nginx
  rules:
    - host: www.ddd.com # 自定义域名，本机hosts配置解析
      http:
        paths:
          - backend:
              service:
                name: prometheus-k8s
                port:
                  number: 9090
            path: /
            pathType: Prefix

Grafana 第一次登录使用 admin:admin，进入首页后，可以发现其实 Grafana 已经有很多配置好的监控图表了。

监控kube-controller-manager 和 kube-scheduler 这两个系统组件

安装步骤中已经新增俩文件：prometheus-kubeControllerManagerService.yaml 和 prometheus-kubeSchedulerService.yaml，但是prometheus的targets中无法访问，这是因为kube-controller-manager 和 kube-scheduler 都使用了 --secure-port 绑定到 127.0.0.1 而不是 0.0.0.0

解决办法：

vim /etc/kubernetes/manifests/kube-controller-manager.yaml
将--bind-address=127.0.0.1 改为 --bind-address=0.0.0.0

vim /etc/kubernetes/manifests/kube-scheduler.yaml
将--bind-address=127.0.0.1 改为 --bind-address=0.0.0.0

由于 kube-controller-manager 和 kube-scheduler 是以静态 Pod 运行在集群中的，所以只要修改静态 Pod 目录下对应的 yaml 文件即可。等待一会后，对应服务会自动重启

配置 PrometheusRule 自定义监控rules

自定义一个报警规则，只需要创建一个具有 prometheus=k8s 和 role=alert-rules 标签的 PrometheusRule 对象就行了,比如：

注意 label 标签一定至少要有 prometheus=k8s 和 role=alert-rules

# prometheus-etcdRules.yaml

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  labels:
    prometheus: k8s # 必须有
    role: alert-rules # 必须有
  name: etcd-rules
  namespace: monitoring
spec:
  groups:
  - name: etcd # 具体的报警规则
    rules:
    - alert: EtcdClusterUnavailable
      annotations:
        summary: etcd cluster small
        description: If one more etcd peer goes down the cluster will be unavailable
      expr: |
        count(up{job="etcd"} == 0) > (count(up{job="etcd"}) / 2 - 1)
      for: 3m
      labels:
        severity: critical

# kubectl apply -f prometheus-etcdRules.yaml
prometheusrule.monitoring.coreos.com/etcd-rules created

配置企业微信报警

直接修改 alertmanager-secret.yaml 文件，增加报警信息参数，然后重新更新这个资源对象

除了watchdog外，其余报警都通过企业微信发送

apiVersion: v1
kind: Secret
metadata:
  labels:
    app.kubernetes.io/component: alert-router
    app.kubernetes.io/instance: main
    app.kubernetes.io/name: alertmanager
    app.kubernetes.io/part-of: kube-prometheus
    app.kubernetes.io/version: 0.24.0
  name: alertmanager-main
  namespace: monitoring
stringData:
  alertmanager.yaml: |-
    "global":
      "resolve_timeout": "5m"
    "inhibit_rules":
    - "equal":
      - "namespace"
      - "alertname"
      "source_matchers":
      - "severity = critical"
      "target_matchers":
      - "severity =~ warning|info"
    - "equal":
      - "namespace"
      - "alertname"
      "source_matchers":
      - "severity = warning"
      "target_matchers":
      - "severity = info"
    - "equal":
      - "namespace"
      "source_matchers":
      - "alertname = InfoInhibitor"
      "target_matchers":
      - "severity = info"
    "receivers":
    - "name": "Default"
      "wechat_configs":
        - corp_id: 'xxx'  # 根据实际情况填写
          api_url: 'https://qyapi.weixin.qq.com/cgi-bin/'
          send_resolved: true
          to_party: '2' # 根据实际情况填写
          agent_id: 1000005 # 根据实际情况填写
          api_secret: 'xxx'  # 根据实际情况填写
    - "name": "Watchdog"
    - "name": "Critical"
      "wechat_configs":
        - corp_id: 'xxx'  # 根据实际情况填写
          api_url: 'https://qyapi.weixin.qq.com/cgi-bin/'
          send_resolved: true
          to_party: '2' # 根据实际情况填写
          agent_id: 1000005 # 根据实际情况填写
          api_secret: 'xxx'  # 根据实际情况填写
    - "name": "null"
      "wechat_configs":
        - corp_id: 'xxx'  # 根据实际情况填写
          api_url: 'https://qyapi.weixin.qq.com/cgi-bin/'
          send_resolved: true
          to_party: '2' # 根据实际情况填写
          agent_id: 1000005 # 根据实际情况填写
          api_secret: 'xxx'  # 根据实际情况填写
    "route":
      "group_by":
      - "namespace"
      "group_interval": "5m"
      "group_wait": "30s"
      "receiver": "Default"
      "repeat_interval": "12h"
      "routes":
      - "matchers":
        - "alertname = Watchdog"
        "receiver": "Watchdog"
      - "matchers":
        - "alertname = InfoInhibitor"
        "receiver": "null"
      - "matchers":
        - "severity = critical"
        "receiver": "Critical"
type: Opaque

# 直接更新该文件，然后就可以收到告警了
$ kubectl apply -f alertmanager-secret.yaml
secret/alertmanager-main configured

注意：执行命令kubectl apply -f alertmanager-secret.yaml表示是创建一个secret,名称为alertmanager-main，里面的内容是alertmanager.yaml文件。

若是增加自定义企业微信告警模板的话，有两种解决办法：
第一种是在alertmanager-secret.yaml文件中继续新增模板文件内容，还是使用apply命令

apiVersion: v1
kind: Secret
metadata:
  labels:
    app.kubernetes.io/component: alert-router
    app.kubernetes.io/instance: main
    app.kubernetes.io/name: alertmanager
    app.kubernetes.io/part-of: kube-prometheus
    app.kubernetes.io/version: 0.24.0
  name: alertmanager-main
  namespace: monitoring
stringData:
  alertmanager.yaml: |-
    "global":
      "resolve_timeout": "5m"
    "inhibit_rules":
    - "equal":
      - "namespace"
      - "alertname"
      "source_matchers":
      - "severity = critical"
      "target_matchers":
      - "severity =~ warning|info"
    - "equal":
      - "namespace"
      - "alertname"
      "source_matchers":
      - "severity = warning"
      "target_matchers":
      - "severity = info"
    - "equal":
      - "namespace"
      "source_matchers":
      - "alertname = InfoInhibitor"
      "target_matchers":
      - "severity = info"
    "receivers":
    - "name": "Default"
      "wechat_configs":
        - corp_id: 'ww0b85c21458a13b12' # 根据实际情况来定 
          api_url: 'https://qyapi.weixin.qq.com/cgi-bin/'
          send_resolved: true
          to_party: '2' # 根据实际情况来定 
          agent_id: 1000005 # 根据实际情况来定 
          api_secret: 'xxx' # 根据实际情况来定 
    - "name": "Watchdog"
    - "name": "Critical"
      "wechat_configs":
        - corp_id: 'ww0b85c21458a13b12' # 根据实际情况来定 
          api_url: 'https://qyapi.weixin.qq.com/cgi-bin/'
          send_resolved: true
          to_party: '2' # 根据实际情况来定 
          agent_id: 1000005 # 根据实际情况来定 
          api_secret: 'xxx' # 根据实际情况来定 
    - "name": "null"
      "wechat_configs":
        - corp_id: 'ww0b85c21458a13b12' # 根据实际情况来定 
          api_url: 'https://qyapi.weixin.qq.com/cgi-bin/'
          send_resolved: true
          to_party: '2' # 根据实际情况来定 
          agent_id: 1000005 # 根据实际情况来定 
          api_secret: 'xxx' # 根据实际情况来定 
    "route":
      "group_by":
      - "namespace"
      "group_interval": "5m"
      "group_wait": "30s"
      "receiver": "Default"
      "repeat_interval": "12h"
      "routes":
      - "matchers":
        - "alertname = Watchdog"
        "receiver": "Watchdog"
      - "matchers":
        - "alertname = InfoInhibitor"
        "receiver": "null"
      - "matchers":
        - "severity = critical"
        "receiver": "Critical"
    "templates":
      - 'wechat_template.tmpl'
  wechat_template.tmpl: |-
    {{ define "wechat.default.message" }}
    {{- if gt (len .Alerts.Firing) 0 -}}
    {{- range $index, $alert := .Alerts -}}
    {{- if eq $index 0 }}
    ==========异常告警==========
    告警类型: {{ $alert.Labels.alertname }}
    告警级别: {{ $alert.Labels.severity }}
    告警详情: {{ $alert.Annotations.message }}{{ $alert.Annotations.description}};{{$alert.Annotations.summary}}
    故障时间: {{ ($alert.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
    {{- if gt (len $alert.Labels.instance) 0 }}
    实例信息: {{ $alert.Labels.instance }}
    {{- end }}
    {{- if gt (len $alert.Labels.namespace) 0 }}
    命名空间: {{ $alert.Labels.namespace }}
    {{- end }}
    {{- if gt (len $alert.Labels.node) 0 }}
    节点信息: {{ $alert.Labels.node }}
    {{- end }}
    {{- if gt (len $alert.Labels.pod) 0 }}
    实例名称: {{ $alert.Labels.pod }}
    {{- end }}
    ============END============
    {{- end }}
    {{- end }}
    {{- end }}
    {{- if gt (len .Alerts.Resolved) 0 -}}
    {{- range $index, $alert := .Alerts -}}
    {{- if eq $index 0 }}
    ==========异常恢复==========
    告警类型: {{ $alert.Labels.alertname }}
    告警级别: {{ $alert.Labels.severity }}
    告警详情: {{ $alert.Annotations.message }}{{ $alert.Annotations.description}};{{$alert.Annotations.summary}}
    故障时间: {{ ($alert.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
    恢复时间: {{ ($alert.EndsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
    {{- if gt (len $alert.Labels.instance) 0 }}
    实例信息: {{ $alert.Labels.instance }}
    {{- end }}
    {{- if gt (len $alert.Labels.namespace) 0 }}
    命名空间: {{ $alert.Labels.namespace }}
    {{- end }}
    {{- if gt (len $alert.Labels.node) 0 }}
    节点信息: {{ $alert.Labels.node }}
    {{- end }}
    {{- if gt (len $alert.Labels.pod) 0 }}
    实例名称: {{ $alert.Labels.pod }}
    {{- end }}
    ============END============
    {{- end }}
    {{- end }}
    {{- end }}
    {{- end }}
type: Opaque

问题：异常告警跟异常恢复消息在一起发送的时候，异常恢复中恢复时间显示不对

但是单独的异常恢复消息发送后，，显示的恢复时间是对的

单独的异常告警消息中，时间显示的也是对的

第二种，单独创建alertmanager.yaml文件和wechat.tmpl模板文件。使用创建secret的命令进行创建

alertmanager.yaml文件内容

global:
  resolve_timeout: 5m
  wechat_api_url: https://qyapi.weixin.qq.com/cgi-bin/ 
templates:
  - '*.tmpl'
route:
  group_by: ['alertname', 'job']
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 5m
  receiver: 'wechat'
  routes:
  - receiver: 'wechat'
    group_wait: 10s
    match:
      severity: warning
  - receiver: 'wechat'
    group_wait: 5s
    match:
      severity: critical
receivers:
- name: 'wechat'
  wechat_configs:
  - corp_id: 'xxx' # 根据实际情况来定
    agent_id: '1000005' # 根据实际情况来定
    api_secret:  'xxx' # 根据实际情况来定 
    to_party: '2' # 根据实际情况来定 
    send_resolved: true

创建一个wechat.tmpl的文件

{{ define "wechat.default.message" }}
{{- if gt (len .Alerts.Firing) 0 -}}
{{- range $index, $alert := .Alerts -}}
{{- if eq $index 0 }}
==========异常告警==========
告警类型: {{ $alert.Labels.alertname }}
告警级别: {{ $alert.Labels.severity }}
告警详情: {{ $alert.Annotations.message }}{{ $alert.Annotations.description}};{{$alert.Annotations.summary}}
故障时间: {{ ($alert.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
{{- if gt (len $alert.Labels.instance) 0 }}
实例信息: {{ $alert.Labels.instance }}
{{- end }}
{{- if gt (len $alert.Labels.namespace) 0 }}
命名空间: {{ $alert.Labels.namespace }}
{{- end }}
{{- if gt (len $alert.Labels.node) 0 }}
节点信息: {{ $alert.Labels.node }}
{{- end }}
{{- if gt (len $alert.Labels.pod) 0 }}
实例名称: {{ $alert.Labels.pod }}
{{- end }}
============END============
{{- end }}
{{- end }}
{{- end }}
{{- if gt (len .Alerts.Resolved) 0 -}}
{{- range $index, $alert := .Alerts -}}
{{- if eq $index 0 }}
==========异常恢复==========
告警类型: {{ $alert.Labels.alertname }}
告警级别: {{ $alert.Labels.severity }}
告警详情: {{ $alert.Annotations.message }}{{ $alert.Annotations.description}};{{$alert.Annotations.summary}}
故障时间: {{ ($alert.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
恢复时间: {{ ($alert.EndsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
{{- if gt (len $alert.Labels.instance) 0 }}
实例信息: {{ $alert.Labels.instance }}
{{- end }}
{{- if gt (len $alert.Labels.namespace) 0 }}
命名空间: {{ $alert.Labels.namespace }}
{{- end }}
{{- if gt (len $alert.Labels.node) 0 }}
节点信息: {{ $alert.Labels.node }}
{{- end }}
{{- if gt (len $alert.Labels.pod) 0 }}
实例名称: {{ $alert.Labels.pod }}
{{- end }}
============END============
{{- end }}
{{- end }}
{{- end }}
{{- end }}

# 删除原来的secret
$ kubectl delete secret alertmanager-main -n monitoring
secret "alertmanager-main" deleted

# 使用如下命令创建新的secret,注意：这个命令有别去第一种方法的命令
$ kubectl create secret generic alertmanager-main --from-file=alertmanager.yaml --from-file=wechat.tmpl -n monitoring
secret/alertmanager-main configured

以上两种方法判断是否生效的办法：
1.查看k8s中的密文，是否有创建的那些

2.查看alertmanager日志，是否有报错

3.查看alertmanager的web页面中config的信息，配置的信息是否显示的有

4.进入到alertmanager的pod中，查看文件是否存在

自动发现配置

在 Service 的 annotation 区域添加 prometheus.io/scrape=true 的声明，将上面文件直接保存为 prometheus-additional.yaml，然后通过这个文件创建一个对应的 Secret 对象：

# cat prometheus-additional.yaml
- job_name: 'kubernetes-endpoints'
  kubernetes_sd_configs:
  - role: endpoints
  relabel_configs:
  - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scrape]
    action: keep
    regex: true
  - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scheme]
    action: replace
    target_label: __scheme__
    regex: (https?)
  - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_path]
    action: replace
    target_label: __metrics_path__
    regex: (.+)
  - source_labels: [__address__, __meta_kubernetes_service_annotation_prometheus_io_port]
    action: replace
    target_label: __address__
    regex: ([^:]+)(?::\d+)?;(\d+)
    replacement: $1:$2
  - action: labelmap
    regex: __meta_kubernetes_service_label_(.+)
  - source_labels: [__meta_kubernetes_namespace]
    action: replace
    target_label: kubernetes_namespace
  - source_labels: [__meta_kubernetes_service_name]
    action: replace
    target_label: kubernetes_name
  - source_labels: [__meta_kubernetes_pod_name]
    action: replace
    target_label: kubernetes_pod_name

# kubectl create secret generic additional-configs --from-file=prometheus-additional.yaml -n monitoring
secret "additional-configs" created

在声明 prometheus 的资源对象文件中通过 additionalScrapeConfigs 属性添加上这个额外的配置：(prometheus-prometheus.yaml)

# cat prometheus-prometheus.yaml

  ......
  version: v2.15.2
  additionalScrapeConfigs: # 如下三行是新增的
    name: additional-configs
    key: prometheus-additional.yaml

添加完成后，直接更新 prometheus 这个 CRD 资源对象即可：

# kubectl apply -f prometheus-prometheus.yaml
prometheus.monitoring.coreos.com "k8s" configured

隔一小会儿，可以前往 Prometheus 的 Dashboard 中查看配置已经生效了：

切换到 targets 页面下面却并没有发现对应的监控任务，查看 Prometheus 的 Pod 日志,可以看到有很多错误日志出现，都是 xxx is forbidden，这说明是 RBAC 权限的问题，通过 prometheus 资源对象的配置可以知道 Prometheus 绑定了一个名为 prometheus-k8s 的 ServiceAccount 对象，而这个对象绑定的是一个名为 prometheus-k8s 的 ClusterRole：（prometheus-clusterRole.yaml）

上面的权限规则中我们可以看到明显没有对 Service 或者 Pod 的 list 权限，所以报错了，要解决这个问题，我们只需要添加上需要的权限即可：

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: prometheus-k8s
rules:
- apiGroups:
  - ""
  resources:
  - nodes
  - services
  - endpoints
  - pods
  - nodes/proxy
  verbs:
  - get
  - list
  - watch
- apiGroups:
  - ""
  resources:
  - configmaps
  - nodes/metrics
  verbs:
  - get
- nonResourceURLs:
  - /metrics
  verbs:
  - get

更新上面的 ClusterRole 这个资源对象，然后重建下 Prometheus 的所有 Pod，正常就可以看到 targets 页面下面有 kubernetes-endpoints 这个监控任务了

这里发现的几个抓取目标是因为 Service 中都有 prometheus.io/scrape=true 这个 annotation。

数据持久化

Prometheus持久化：prometheus-prometheus.yaml，新增如下配置

  storage:
    volumeClaimTemplate:
      spec:
        storageClassName: rook-cephfs # 根据实际情况修改
        accessModes: ["ReadWriteOnce"]
        resources:
          requests:
            storage: 30Gi

Grafana 持久化

1.grafana-pvc.yaml （新建该文件）

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: grafana
  namespace: monitoring
spec:
  storageClassName: rook-cephfs # 根据实际情况修改
  accessModes:
    - ReadWriteOnce
  resources:
    requests:
      storage: 20Gi

2.grafana-deployment.yaml （修改该文件）

      volumes:
      - name: grafana-storage    # 新增配置
        persistentVolumeClaim:
          claimName: grafana
      #- emptyDir: {} # 注释原来的
      #  name: grafana-storage

# kubectl apply -f grafana-pvc.yaml
persistentvolumeclaim/grafana created

# kubectl apply -f grafana-deployment.yaml
deployment.apps/grafana configured

新增serviceMonitor监控ingress-nginx

prometheus opertaor是通过serviceMontior这个CRD来获取指标监控的,会通过Service的标签进行关联jobs

在manifests下创建一个kubernetes-serviceMonitorIngressNginx.yaml，并应用

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  labels:
    app.kubernetes.io/name: ingress-nginx
    app.kubernetes.io/part-of: kube-prometheus
  name: ingress-nginx
  namespace: monitoring
spec:
  endpoints:
  - interval: 15s 
    port: metrics
  jobLabel: app.kubernetes.io/name
  namespaceSelector:
    matchNames:
    - ingress-nginx 
  selector:
    matchLabels:
      app.kubernetes.io/name: ingress-nginx

# kubectl apply -f kubernetes-serviceMonitorIngressNginx.yaml
servicemonitor.monitoring.coreos.com/ingress-nginx created

在manifests下创建一个ingress-metrics.yaml，并应用

apiVersion: v1
kind: Service
metadata:
  name: ingress-nginx
  namespace: ingress-nginx
  labels:
    app.kubernetes.io/name: ingress-nginx
  annotations:
    prometheus.io/port: "10254" #这2个注解是ingress-nginx官方提供的
    prometheus.io/scrape: "true"
spec:
  type: ClusterIP
  ports:
  - name: metrics
    port: 10254
    targetPort: 10254
    protocol: TCP
  selector:
    app.kubernetes.io/name: ingress-nginx
    app.kubernetes.io/component: controller

# kubectl apply -f ingress-metrics.yaml
service/ingress-nginx created

前提条件：（这一步在上面自动发现配置中已经操作过了，若是未操作过自动发现配置，则还需要操作这个前提条件）

# vim prometheus-clusterRole.yaml
#新增一个apigroups
- apiGroups:
  - ""
  resources:
  - services
  - endpoints
  - pods
  verbs:
  - get
  - list
  - watch

Thanos

关于 prometheus operator 中如何配置 thanos，可以查看官方文档的介绍：https://github.com/coreos/prometheus-operator/blob/master/Documentation/thanos.md

$ kubectl explain prometheus.spec.thanos                     
KIND:     Prometheus
VERSION:  monitoring.coreos.com/v1

RESOURCE: thanos

Kubernetes 监控：Prometheus Operator + Thanos ---实践篇

背景说明

安装

访问

监控kube-controller-manager 和 kube-scheduler 这两个系统组件

配置 PrometheusRule 自定义监控rules

配置企业微信报警

自动发现配置

数据持久化

Prometheus持久化：prometheus-prometheus.yaml，新增如下配置

Grafana 持久化

新增serviceMonitor监控ingress-nginx

Thanos

部署其他的 Thanos 组件，比如 Querier、Store、Compactor

Thanos Querier

Thanos Store

Thanos Compactor

相关

Prometheus安装

Prometheus之node exporter使用帮助

SuperEdge 和 FabEdge 联合在边缘 K8s 集群支持原生 Service 云边互访和 PodIP 直通

k8s-调度亲和性和污点容忍、指定调度节点(nodeSelector)

在 k8s 中的 jenkins 集成 sonarqube 实现代码质量检查

k8s中的nginx-ingress如何配置路径重定向

Prometheus之Alertmanager介绍

Prometheus之PromQL进阶

Prometheus之部署blackbox_exporter

k8s搭建手札-kubeadm

k8s的对象管理一(命令式与声明式API)

K8S集群etcd备份与恢复

标签