# 05-05-Prometheus 与 Grafana > 使用 `kube-prometheus-stack` 建立基础可观测能力。 ## 契约与真源 - **Helm values 示例**:`ansible/files/05-05/kube-prometheus-stack-values.example.yaml`(见同目录 `README.md`)。 - **手动**:下文 `helm` 命令;可将 `-f ansible/files/05-05/kube-prometheus-stack-values.example.yaml` 传给 `helm upgrade --install`。 - **自动**:`./ansible/bin/verify.sh run 05-05`(与上述路径同一真源,便于对照;当前为 noop + 集群基线)。 ## TL;DR - **自动化验收**:`./ansible/bin/verify.sh run 05-05` - **关键前置**:按本文「前置条件」准备环境变量/Secret/入口 IP - **成功判据**:达到本文「预期」且 playbook 断言通过 - **排障**:见本文「排障」 ## 前置条件 - 集群已正常运行 - Helm 已安装 ## 操作步骤 1. 添加仓库并更新索引 2. 创建 `monitoring` 命名空间 3. 安装 `kube-prometheus-stack` ```bash helm repo add prometheus-community https://prometheus-community.github.io/helm-charts helm repo update kubectl create namespace monitoring helm upgrade --install monitoring prometheus-community/kube-prometheus-stack -n monitoring \ -f ansible/files/05-05/kube-prometheus-stack-values.example.yaml ``` ## 验证命令 ```bash kubectl -n monitoring get pods kubectl -n monitoring get svc ``` ## 预期 - 核心组件 Pod 处于 Running ## 下一步 - `06-02-运维小结.md` ## 排障 - **先看 playbook 输出**:失败时先定位是 deploy/wait/http_check 哪一步。 - **集群侧总览**:`kubectl get nodes -o wide`、`kubectl -n kube-system get pods -o wide`。 - **事件与日志**:`kubectl -n describe ...`、`kubectl -n logs ... --tail=200`。