云原生可观测性：使用Prometheus与Grafana构建监控体系

引言：从“监控”到“可观测性”的思维转变

在传统的IT运维中，我们谈论得更多的是 监控（Monitoring）——即通过预设的仪表盘和告警，来回答我们已知的问题（“服务器CPU使用率是否超过了80%？”）。然而，在复杂、动态的云原生和微服务世界中，我们面临着大量未知的问题（“为什么上周开始，用户A的请求延迟突然增加了50ms？”）。

为了应对这种复杂性，可观测性（Observability） 的概念应运而生。它不仅仅是监控，而是系统能够通过其产生的外部输出来回答任意问题的能力。可观测性的三大支柱是：

指标 (Metrics)：可聚合的、定量的数值型数据，用于了解系统的宏观行为。
日志 (Logs)：记录了离散事件的、带有时间戳的文本记录，用于问题排查。
追踪 (Traces)：记录了单个请求在分布式系统中的完整调用链，用于理解系统行为和性能瓶颈。

在云原生生态中，Prometheus 和 Grafana 的组合，已经成为实现基于指标的可观测性的事实标准。

Prometheus：云原生监控的“度量之王”

Prometheus是一个开源的系统监控和告警工具包，最初由SoundCloud构建，现在是云原生计算基金会（CNCF）的毕业项目。

Prometheus的核心架构与哲学

拉取模型 (Pull Model)：与许多将数据推送（Push）到监控系统的工具不同，Prometheus主要采用 拉取模型。它会主动地、周期性地从被监控的目标（如服务、服务器）的HTTP端点上抓取（scrape）指标数据。
多维数据模型：Prometheus存储的是 时间序列（Time Series）数据。每一条时间序列都由一个 指标名称（Metric Name） 和一组 键值对标签（Labels） 唯一标识。例如，http_requests_total{method="POST", handler="/api/users"} 就是一条时间序列，它记录了对/api/users端点的POST请求总数。这种多维标签模型使得数据查询和聚合变得极其灵活和强大。
强大的查询语言 (PromQL)：Prometheus内置了功能强大的查询语言PromQL，允许用户对收集到的时间序列数据进行灵活的查询、聚合和告警。
服务发现：Prometheus能够与Kubernetes等平台集成，实现对监控目标的自动发现。

Prometheus生态系统

Exporters：大量的“导出器”（Exporter）用于将第三方系统（如数据库、硬件、消息队列）的指标转换为Prometheus可以抓取的格式。最常用的一个是 Node Exporter，用于暴露服务器的硬件和操作系统指标。
Alertmanager：处理由Prometheus服务器触发的告警，负责去重、分组、静默，并将告警通过邮件、Slack、PagerDuty等方式发送出去。

Grafana：数据可视化的“艺术大师”

Grafana是一个开源的、跨平台的数据可视化和监控分析平台。它本身不存储任何数据，而是通过其强大的 数据源（Data Source） 插件系统，连接到各种数据存储（如Prometheus、Loki、Elasticsearch、MySQL等），并将其中的数据以美观、可交互的图表和仪表盘（Dashboard）形式展现出来。

为什么选择Grafana？

强大的可视化能力：支持丰富的图表类型，从简单的折线图到复杂的热力图、仪表盘等。
灵活的仪表盘：用户可以通过拖拽的方式轻松创建和定制高度交互式的仪表盘。
统一的监控入口：可以连接多个不同的数据源，将来自Prometheus的指标、来自Loki的日志、来自Jaeger的追踪数据整合在同一个仪表盘中，提供统一的可观测性视图。
动态告警：Grafana也内置了强大的告警引擎，可以直接在图表上设置告警规则。

Prometheus + Grafana：黄金组合如何工作

这两者结合的工作流程非常经典：

部署Exporters：在你的服务器或Kubernetes集群中部署Node Exporter等各种Exporter，它们会暴露一个/metrics的HTTP端点，上面以文本格式展示着当前的指标数据。
Prometheus抓取：配置Prometheus服务器，让它定期地从这些Exporter的端点上抓取指标数据，并将其存储在自己的时序数据库中。
Grafana连接Prometheus：在Grafana中，添加一个新的Prometheus数据源，并指向你的Prometheus服务器地址。
创建和查询仪表盘：在Grafana中创建仪表盘，并通过PromQL查询Prometheus中的数据，将查询结果配置到各种图表中。社区中有大量预置好的、针对常见应用（如Node Exporter, Kubernetes）的仪表盘模板，可以直接导入使用。

图片来源: Better Stack on YouTube

结论

Prometheus和Grafana的组合为云原生环境提供了一个功能强大、高度可扩展且成本效益高的可观测性解决方案。

Prometheus 解决了 如何可靠地收集和存储大规模多维指标 的问题。
Grafana 解决了 如何将这些枯燥的数据转化为直观、可交互、有洞察力的视图 的问题。

它们共同构成了云原生可观测性体系中不可或缺的一环。掌握这对黄金组合，是每一位现代DevOps和SRE工程师构建和维护可靠系统的必备技能。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

云原生可观测性：使用Prometheus与Grafana构建监控体系

引言：从“监控”到“可观测性”的思维转变

Prometheus：云原生监控的“度量之王”

Prometheus的核心架构与哲学

Prometheus生态系统

Grafana：数据可视化的“艺术大师”

Prometheus + Grafana：黄金组合如何工作

结论

FilesExpand file tree

prometheus-grafana-observability.md

Latest commit

History

prometheus-grafana-observability.md

File metadata and controls

云原生可观测性：使用Prometheus与Grafana构建监控体系

引言：从“监控”到“可观测性”的思维转变

Prometheus：云原生监控的“度量之王”

Prometheus的核心架构与哲学

Prometheus生态系统

Grafana：数据可视化的“艺术大师”

Prometheus + Grafana：黄金组合如何工作

结论