完善中央与边缘部署、远程写入与监控文档
- 增加中央与边缘完整配置和部署脚本 - 引入 VictoriaMetrics 数据源与 remote_write 故障排查说明 - 新增 edge-agent 配置脚本、ONVIF 自建 exporter 与 ping 监控示例 Co-authored-by: Cursor <cursoragent@cursor.com>
This commit is contained in:
300
doc/ALERTMANAGER_CONFIG.md
Normal file
300
doc/ALERTMANAGER_CONFIG.md
Normal file
@@ -0,0 +1,300 @@
|
||||
# Alertmanager 配置说明
|
||||
|
||||
## 配置文件概述
|
||||
|
||||
`alertmanager.yml` 是 Alertmanager 的核心配置文件,用于定义告警路由、通知方式和告警抑制规则。
|
||||
|
||||
## 配置详解
|
||||
|
||||
### 1. Global(全局配置)
|
||||
|
||||
```yaml
|
||||
global:
|
||||
smtp_smarthost: 'localhost:587'
|
||||
smtp_from: 'alertmanager@example.com'
|
||||
```
|
||||
|
||||
**作用**:定义全局的 SMTP 邮件服务器配置
|
||||
|
||||
**字段说明**:
|
||||
- `smtp_smarthost`: SMTP 服务器地址和端口
|
||||
- 当前配置:`localhost:587`(本地邮件服务器)
|
||||
- 如果使用外部邮件服务,例如:
|
||||
- Gmail: `smtp.gmail.com:587`
|
||||
- 163邮箱: `smtp.163.com:465`
|
||||
- 企业邮箱: `smtp.company.com:587`
|
||||
- `smtp_from`: 发送告警邮件的发件人地址
|
||||
- 当前配置:`alertmanager@example.com`(示例地址,需要修改)
|
||||
|
||||
**注意**:当前配置使用的是 webhook,所以 SMTP 配置暂时未使用。
|
||||
|
||||
---
|
||||
|
||||
### 2. Route(路由配置)
|
||||
|
||||
```yaml
|
||||
route:
|
||||
group_by: ['alertname']
|
||||
group_wait: 10s
|
||||
group_interval: 10s
|
||||
repeat_interval: 1h
|
||||
receiver: 'web.hook'
|
||||
```
|
||||
|
||||
**作用**:定义告警的路由规则,决定告警如何分组和发送
|
||||
|
||||
**字段说明**:
|
||||
|
||||
| 字段 | 说明 | 当前值 | 含义 |
|
||||
|------|------|--------|------|
|
||||
| `group_by` | 告警分组字段 | `['alertname']` | 按告警名称分组,相同名称的告警会被合并 |
|
||||
| `group_wait` | 分组等待时间 | `10s` | 收到第一个告警后,等待10秒再发送(用于合并同类告警) |
|
||||
| `group_interval` | 分组间隔 | `10s` | 同一分组内新告警的发送间隔 |
|
||||
| `repeat_interval` | 重复间隔 | `1h` | 如果告警持续存在,每1小时重复发送一次通知 |
|
||||
| `receiver` | 默认接收器 | `'web.hook'` | 所有告警默认发送到 `web.hook` 接收器 |
|
||||
|
||||
**示例场景**:
|
||||
- 如果 3 个设备同时离线,会在 10 秒内合并为一条告警发送
|
||||
- 如果告警持续存在,每小时会重复通知一次
|
||||
|
||||
---
|
||||
|
||||
### 3. Receivers(接收器配置)
|
||||
|
||||
```yaml
|
||||
receivers:
|
||||
- name: 'web.hook'
|
||||
webhook_configs:
|
||||
- url: 'http://127.0.0.1:5001/'
|
||||
```
|
||||
|
||||
**作用**:定义告警通知的接收方式
|
||||
|
||||
**当前配置**:
|
||||
- **接收器名称**:`web.hook`
|
||||
- **通知方式**:Webhook(HTTP POST)
|
||||
- **目标地址**:`http://127.0.0.1:5001/`
|
||||
|
||||
**说明**:
|
||||
- 告警会以 JSON 格式 POST 到指定的 URL
|
||||
- 需要有一个服务监听 `127.0.0.1:5001` 来处理告警
|
||||
- 如果没有这个服务,告警通知会失败
|
||||
|
||||
**其他可用的接收器类型**:
|
||||
- `email_configs` - 邮件通知
|
||||
- `wechat_configs` - 企业微信通知
|
||||
- `dingtalk_configs` - 钉钉通知
|
||||
- `slack_configs` - Slack 通知
|
||||
- `webhook_configs` - 自定义 Webhook
|
||||
|
||||
---
|
||||
|
||||
### 4. Inhibit Rules(抑制规则)
|
||||
|
||||
```yaml
|
||||
inhibit_rules:
|
||||
- source_match:
|
||||
severity: 'critical'
|
||||
target_match:
|
||||
severity: 'warning'
|
||||
equal: ['alertname', 'dev', 'instance']
|
||||
```
|
||||
|
||||
**作用**:定义告警抑制规则,避免重复告警
|
||||
|
||||
**当前规则说明**:
|
||||
- **源匹配**:如果存在 `severity: critical` 的告警
|
||||
- **目标匹配**:则抑制 `severity: warning` 的告警
|
||||
- **匹配条件**:当 `alertname`、`dev`、`instance` 标签相同时
|
||||
|
||||
**示例场景**:
|
||||
- 如果设备离线(critical),则不再发送该设备的温度过高(warning)告警
|
||||
- 避免告警风暴,只关注最严重的问题
|
||||
|
||||
**注意**:当前配置中的 `dev` 标签可能不存在,建议修改为实际使用的标签。
|
||||
|
||||
---
|
||||
|
||||
## 配置流程图
|
||||
|
||||
```
|
||||
Prometheus 触发告警
|
||||
│
|
||||
▼
|
||||
Alertmanager 接收告警
|
||||
│
|
||||
├─> 按 alertname 分组
|
||||
├─> 等待 10s(group_wait)
|
||||
├─> 应用抑制规则
|
||||
│
|
||||
▼
|
||||
发送到接收器 (web.hook)
|
||||
│
|
||||
▼
|
||||
POST 到 http://127.0.0.1:5001/
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 常见配置场景
|
||||
|
||||
### 场景 1:邮件通知
|
||||
|
||||
```yaml
|
||||
receivers:
|
||||
- name: 'email'
|
||||
email_configs:
|
||||
- to: 'admin@example.com'
|
||||
from: 'alertmanager@example.com'
|
||||
smarthost: 'smtp.gmail.com:587'
|
||||
auth_username: 'your-email@gmail.com'
|
||||
auth_password: 'your-password'
|
||||
```
|
||||
|
||||
### 场景 2:企业微信通知
|
||||
|
||||
```yaml
|
||||
receivers:
|
||||
- name: 'wechat'
|
||||
wechat_configs:
|
||||
- api_url: 'https://qyapi.weixin.qq.com/cgi-bin/webhook/send'
|
||||
corp_id: 'your-corp-id'
|
||||
to_user: '@all'
|
||||
```
|
||||
|
||||
### 场景 3:多接收器(根据严重程度)
|
||||
|
||||
```yaml
|
||||
route:
|
||||
routes:
|
||||
- match:
|
||||
severity: critical
|
||||
receiver: 'critical-alerts'
|
||||
- match:
|
||||
severity: warning
|
||||
receiver: 'warning-alerts'
|
||||
receiver: 'default'
|
||||
|
||||
receivers:
|
||||
- name: 'critical-alerts'
|
||||
email_configs:
|
||||
- to: 'oncall@example.com'
|
||||
- name: 'warning-alerts'
|
||||
webhook_configs:
|
||||
- url: 'http://127.0.0.1:5001/'
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 当前配置的问题和建议
|
||||
|
||||
### 问题 1:Webhook 服务不存在
|
||||
|
||||
**当前配置**:`http://127.0.0.1:5001/`
|
||||
|
||||
**问题**:如果没有服务监听这个端口,告警通知会失败
|
||||
|
||||
**解决方案**:
|
||||
1. **部署 Webhook 接收服务**(推荐用于开发测试)
|
||||
2. **配置邮件通知**(推荐用于生产环境)
|
||||
3. **配置企业微信/钉钉**(推荐用于团队协作)
|
||||
|
||||
### 问题 2:抑制规则标签不匹配
|
||||
|
||||
**当前配置**:`equal: ['alertname', 'dev', 'instance']`
|
||||
|
||||
**问题**:`dev` 标签可能不存在于告警中
|
||||
|
||||
**建议修改**:
|
||||
```yaml
|
||||
equal: ['alertname', 'instance']
|
||||
```
|
||||
|
||||
### 问题 3:SMTP 配置未使用
|
||||
|
||||
**当前配置**:SMTP 配置存在但未使用
|
||||
|
||||
**建议**:
|
||||
- 如果使用邮件通知,需要配置正确的 SMTP 服务器
|
||||
- 如果只使用 Webhook,可以删除 SMTP 配置
|
||||
|
||||
---
|
||||
|
||||
## 验证配置
|
||||
|
||||
### 1. 检查配置语法
|
||||
|
||||
```bash
|
||||
docker exec alertmanager amtool check-config /etc/alertmanager/alertmanager.yml
|
||||
```
|
||||
|
||||
### 2. 查看告警状态
|
||||
|
||||
访问 Alertmanager Web UI:
|
||||
```
|
||||
http://localhost:9093
|
||||
```
|
||||
|
||||
### 3. 测试告警
|
||||
|
||||
在 Prometheus 中手动触发告警,查看是否收到通知。
|
||||
|
||||
---
|
||||
|
||||
## 配置示例(推荐)
|
||||
|
||||
### 最小化 Webhook 配置
|
||||
|
||||
```yaml
|
||||
route:
|
||||
group_by: ['alertname', 'instance']
|
||||
group_wait: 10s
|
||||
group_interval: 10s
|
||||
repeat_interval: 1h
|
||||
receiver: 'web.hook'
|
||||
|
||||
receivers:
|
||||
- name: 'web.hook'
|
||||
webhook_configs:
|
||||
- url: 'http://127.0.0.1:5001/'
|
||||
send_resolved: true # 发送恢复通知
|
||||
|
||||
inhibit_rules:
|
||||
- source_match:
|
||||
severity: 'critical'
|
||||
target_match:
|
||||
severity: 'warning'
|
||||
equal: ['alertname', 'instance']
|
||||
```
|
||||
|
||||
### 邮件通知配置
|
||||
|
||||
```yaml
|
||||
global:
|
||||
smtp_smarthost: 'smtp.gmail.com:587'
|
||||
smtp_from: 'alertmanager@example.com'
|
||||
smtp_auth_username: 'your-email@gmail.com'
|
||||
smtp_auth_password: 'your-app-password'
|
||||
|
||||
route:
|
||||
group_by: ['alertname']
|
||||
group_wait: 10s
|
||||
group_interval: 10s
|
||||
repeat_interval: 1h
|
||||
receiver: 'email'
|
||||
|
||||
receivers:
|
||||
- name: 'email'
|
||||
email_configs:
|
||||
- to: 'admin@example.com'
|
||||
send_resolved: true
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 下一步
|
||||
|
||||
1. **配置通知渠道**:根据实际需求配置邮件、企业微信、钉钉等
|
||||
2. **测试告警**:确保告警能够正常发送
|
||||
3. **优化路由规则**:根据业务需求调整告警分组和路由
|
||||
4. **设置告警抑制**:避免告警风暴
|
||||
130
doc/ALERT_RULES_EXPLANATION.md
Normal file
130
doc/ALERT_RULES_EXPLANATION.md
Normal file
@@ -0,0 +1,130 @@
|
||||
# 告警规则说明
|
||||
|
||||
## 告警规则概述
|
||||
|
||||
当前配置了两组告警规则,用于监控 ONVIF 设备和网络设备的状态。
|
||||
|
||||
## 告警规则详解
|
||||
|
||||
### 1. ONVIF 设备告警组 (onvif_alerts)
|
||||
|
||||
#### ONVIFDeviceDown - ONVIF设备离线
|
||||
- **触发条件**:`up{job="onvif-devices"} == 0`
|
||||
- **持续时间**:1分钟
|
||||
- **严重程度**:critical(严重)
|
||||
- **说明**:当 ONVIF 设备(如摄像头)无法访问或离线超过1分钟时触发
|
||||
- **告警信息**:显示哪个设备实例离线
|
||||
|
||||
#### ONVIFDeviceHighTemperature - ONVIF设备温度过高
|
||||
- **触发条件**:`onvif_device_temperature > 70`
|
||||
- **持续时间**:2分钟
|
||||
- **严重程度**:warning(警告)
|
||||
- **说明**:当设备温度超过70°C时触发,防止设备过热损坏
|
||||
- **告警信息**:显示设备实例和当前温度值
|
||||
|
||||
#### ONVIFDeviceLowStorage - ONVIF设备存储空间不足
|
||||
- **触发条件**:`onvif_storage_usage_percent > 90`
|
||||
- **持续时间**:5分钟
|
||||
- **严重程度**:warning(警告)
|
||||
- **说明**:当设备存储使用率超过90%时触发,提醒需要清理存储空间
|
||||
- **告警信息**:显示设备实例和存储使用率
|
||||
|
||||
### 2. 网络设备告警组 (network_alerts)
|
||||
|
||||
#### NetworkDeviceDown - 网络设备离线
|
||||
- **触发条件**:`probe_success{job="network-ping"} == 0`
|
||||
- **持续时间**:2分钟
|
||||
- **严重程度**:critical(严重)
|
||||
- **说明**:当网络设备无法通过 ping 连通时触发
|
||||
- **告警信息**:显示哪个网络设备实例无法访问
|
||||
|
||||
#### HighNetworkLatency - 网络延迟过高
|
||||
- **触发条件**:`probe_duration_seconds{job="network-ping"} > 1`
|
||||
- **持续时间**:5分钟
|
||||
- **严重程度**:warning(警告)
|
||||
- **说明**:当网络延迟超过1秒时触发,表示网络质量下降
|
||||
- **告警信息**:显示设备实例和延迟时间
|
||||
|
||||
## 为什么告警规则是 Inactive(非活跃)状态?
|
||||
|
||||
告警规则显示为 **inactive** 的原因:
|
||||
|
||||
1. **缺少数据源**:
|
||||
- 这些告警依赖于边缘节点推送的数据
|
||||
- 需要配置 `edge-agent` 并部署到边缘节点
|
||||
- 边缘节点需要配置 ONVIF 设备和网络探测目标
|
||||
|
||||
2. **指标不存在**:
|
||||
- `up{job="onvif-devices"}` - 需要边缘节点运行 ONVIF Exporter
|
||||
- `probe_success{job="network-ping"}` - 需要边缘节点运行 Blackbox Exporter
|
||||
- 如果这些指标不存在,告警规则无法评估,所以是 inactive
|
||||
|
||||
3. **数据未推送**:
|
||||
- 边缘节点的数据需要通过 `remote_write` 推送到中央服务器
|
||||
- 检查边缘节点是否正常连接并推送数据
|
||||
|
||||
## 如何激活告警规则?
|
||||
|
||||
### 步骤 1:部署边缘节点代理
|
||||
|
||||
```bash
|
||||
cd ../edge-agent
|
||||
bash deploy.sh
|
||||
```
|
||||
|
||||
### 步骤 2:配置监控目标
|
||||
|
||||
1. **配置 ONVIF 设备**:
|
||||
- 编辑 `edge-agent/config/devices.csv`
|
||||
- 添加要监控的 ONVIF 设备信息
|
||||
|
||||
2. **配置网络探测目标**:
|
||||
- 编辑 `edge-agent/config/ping-targets.csv`
|
||||
- 添加要监控的网络设备 IP 地址
|
||||
|
||||
### 步骤 3:更新配置
|
||||
|
||||
```bash
|
||||
cd edge-agent/config
|
||||
./update-configs.sh
|
||||
```
|
||||
|
||||
### 步骤 4:验证数据推送
|
||||
|
||||
1. 在 Prometheus 中查询指标:
|
||||
```promql
|
||||
up{job="onvif-devices"}
|
||||
probe_success{job="network-ping"}
|
||||
```
|
||||
|
||||
2. 如果能看到数据,告警规则会自动变为 **active** 状态
|
||||
|
||||
## 告警状态说明
|
||||
|
||||
- **Inactive(非活跃)**:告警规则已加载,但没有匹配的数据或条件未满足
|
||||
- **Pending(待触发)**:条件满足,但未达到持续时间阈值
|
||||
- **Firing(触发中)**:条件满足且持续时间达到阈值,告警已触发
|
||||
- **Resolved(已解决)**:告警条件不再满足,告警已恢复
|
||||
|
||||
## 告警通知
|
||||
|
||||
当告警触发时,会发送到 Alertmanager,然后根据配置发送通知:
|
||||
- 当前配置:发送到 webhook `http://127.0.0.1:5001/`
|
||||
- 可以修改 `alertmanager/alertmanager.yml` 配置邮件、钉钉、企业微信等通知方式
|
||||
|
||||
## 自定义告警规则
|
||||
|
||||
可以在 `alert_rules.yml` 中添加更多告警规则,例如:
|
||||
|
||||
```yaml
|
||||
- alert: CustomAlert
|
||||
expr: your_metric > threshold
|
||||
for: 5m
|
||||
labels:
|
||||
severity: warning
|
||||
annotations:
|
||||
summary: "自定义告警"
|
||||
description: "描述信息"
|
||||
```
|
||||
|
||||
修改后,Prometheus 会自动重新加载配置(如果启用了 `--web.enable-lifecycle`)。
|
||||
243
doc/ARCHITECTURE.md
Normal file
243
doc/ARCHITECTURE.md
Normal file
@@ -0,0 +1,243 @@
|
||||
# 系统架构图
|
||||
|
||||
## 容器关系图
|
||||
|
||||
```
|
||||
┌─────────────────────────────────────────────────────────────────┐
|
||||
│ 边缘节点 (Edge Agents) │
|
||||
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
|
||||
│ │ Edge Node 1 │ │ Edge Node 2 │ │ Edge Node N │ │
|
||||
│ │ │ │ │ │ │ │
|
||||
│ │ Prometheus │ │ Prometheus │ │ Prometheus │ │
|
||||
│ │ Edge │ │ Edge │ │ Edge │ │
|
||||
│ │ │ │ │ │ │ │
|
||||
│ │ ONVIF │ │ ONVIF │ │ ONVIF │ │
|
||||
│ │ Exporter │ │ Exporter │ │ Exporter │ │
|
||||
│ │ │ │ │ │ │ │
|
||||
│ │ Blackbox │ │ Blackbox │ │ Blackbox │ │
|
||||
│ │ Exporter │ │ Exporter │ │ Exporter │ │
|
||||
│ └──────┬───────┘ └──────┬───────┘ └──────┬───────┘ │
|
||||
│ │ │ │ │
|
||||
│ └──────────────────┼──────────────────┘ │
|
||||
│ │ │
|
||||
│ remote_write │
|
||||
│ (HTTP POST) │
|
||||
└────────────────────────────┼────────────────────────────────────┘
|
||||
│
|
||||
▼
|
||||
┌─────────────────────────────────────────────────────────────────┐
|
||||
│ 中央服务器 (Central Server) │
|
||||
│ │
|
||||
│ ┌──────────────────────────────────────────────────────────┐ │
|
||||
│ │ VictoriaMetrics (8428) │ │
|
||||
│ │ ┌────────────────────────────────────────────────────┐ │ │
|
||||
│ │ │ 远程写入接收器 │ │ │
|
||||
│ │ │ - 接收边缘节点推送的指标数据 │ │ │
|
||||
│ │ │ - 存储时序数据 │ │ │
|
||||
│ │ │ - 提供查询接口 │ │ │
|
||||
│ │ └────────────────────────────────────────────────────┘ │ │
|
||||
│ └────────────────────┬───────────────────────────────────────┘ │
|
||||
│ │ │
|
||||
│ │ 数据查询 │
|
||||
│ │ │
|
||||
│ ┌────────────────────▼───────────────────────────────────────┐ │
|
||||
│ │ Prometheus Central (9091) │ │
|
||||
│ │ ┌────────────────────────────────────────────────────┐ │ │
|
||||
│ │ │ 指标收集和查询引擎 │ │ │
|
||||
│ │ │ - 从 VictoriaMetrics 读取数据 │ │ │
|
||||
│ │ │ - 抓取本地服务指标 (自身、Grafana、Alertmanager) │ │ │
|
||||
│ │ │ - 评估告警规则 │ │ │
|
||||
│ │ │ - 提供 PromQL 查询接口 │ │ │
|
||||
│ │ └────────────────────────────────────────────────────┘ │ │
|
||||
│ └────────────┬───────────────────────────┬───────────────────┘ │
|
||||
│ │ │ │
|
||||
│ │ 告警触发 │ 数据查询 │
|
||||
│ │ │ │
|
||||
│ ┌────────────▼──────────┐ ┌─────────────▼──────────────┐ │
|
||||
│ │ Alertmanager (9093) │ │ Grafana (3000) │ │
|
||||
│ │ ┌──────────────────┐ │ │ ┌──────────────────────┐ │ │
|
||||
│ │ │ 告警管理 │ │ │ │ 可视化仪表板 │ │ │
|
||||
│ │ │ - 接收告警 │ │ │ │ - 从 Prometheus 查询 │ │ │
|
||||
│ │ │ - 告警分组 │ │ │ │ - 创建图表和仪表板 │ │ │
|
||||
│ │ │ - 发送通知 │ │ │ │ - 多用户管理 │ │ │
|
||||
│ │ │ - 告警抑制 │ │ │ │ - 中文界面 │ │ │
|
||||
│ │ └──────────────────┘ │ │ └──────────────────────┘ │ │
|
||||
│ └───────────────────────┘ │ └──────────────────────────┘ │
|
||||
│ │ │
|
||||
└──────────────────────────────┼──────────────────────────────────┘
|
||||
│
|
||||
│ HTTP 访问
|
||||
│
|
||||
┌───────────────┼───────────────┐
|
||||
│ │ │
|
||||
▼ ▼ ▼
|
||||
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
|
||||
│ 管理员 │ │ 用户组A │ │ 用户组B │
|
||||
│ (Admin) │ │ (Org A) │ │ (Org B) │
|
||||
└─────────────┘ └─────────────┘ └─────────────┘
|
||||
```
|
||||
|
||||
## 数据流向
|
||||
|
||||
### 1. 数据收集流程
|
||||
|
||||
```
|
||||
边缘节点设备
|
||||
│
|
||||
├─ ONVIF 设备 (摄像头等)
|
||||
│ └─> ONVIF Exporter ──┐
|
||||
│ │
|
||||
├─ 网络设备 (IP地址) │
|
||||
│ └─> Blackbox Exporter ─┤
|
||||
│ │
|
||||
└─> Prometheus Edge ───────┘
|
||||
│
|
||||
│ remote_write (HTTP POST)
|
||||
▼
|
||||
VictoriaMetrics (8428)
|
||||
│
|
||||
│ 数据存储
|
||||
▼
|
||||
Prometheus Central (9091)
|
||||
│
|
||||
├─> 告警规则评估
|
||||
│ └─> Alertmanager (9093)
|
||||
│
|
||||
└─> 数据查询
|
||||
└─> Grafana (3000)
|
||||
```
|
||||
|
||||
### 2. 告警流程
|
||||
|
||||
```
|
||||
设备异常
|
||||
│
|
||||
▼
|
||||
Prometheus 检测到指标异常
|
||||
│
|
||||
▼
|
||||
告警规则触发 (alert_rules.yml)
|
||||
│
|
||||
▼
|
||||
发送告警到 Alertmanager
|
||||
│
|
||||
▼
|
||||
Alertmanager 处理告警
|
||||
├─> 告警分组
|
||||
├─> 告警抑制
|
||||
└─> 发送通知 (webhook/邮件等)
|
||||
```
|
||||
|
||||
### 3. 查询流程
|
||||
|
||||
```
|
||||
用户访问 Grafana
|
||||
│
|
||||
▼
|
||||
Grafana 发送 PromQL 查询
|
||||
│
|
||||
▼
|
||||
Prometheus 处理查询
|
||||
│
|
||||
├─> 从 VictoriaMetrics 读取数据
|
||||
└─> 返回查询结果
|
||||
│
|
||||
▼
|
||||
Grafana 渲染图表
|
||||
│
|
||||
▼
|
||||
用户查看监控数据
|
||||
```
|
||||
|
||||
## 容器详细说明
|
||||
|
||||
### 1. VictoriaMetrics (8428)
|
||||
- **作用**:远程写入接收器,存储时序数据
|
||||
- **接收**:边缘节点通过 `remote_write` 推送的数据
|
||||
- **提供**:数据查询接口
|
||||
- **数据路径**:`/storage/victoria-metrics-data`
|
||||
|
||||
### 2. Prometheus Central (9091)
|
||||
- **作用**:指标收集、查询和告警评估
|
||||
- **数据源**:
|
||||
- 从 VictoriaMetrics 读取边缘节点数据
|
||||
- 抓取本地服务(自身、Grafana、Alertmanager、VictoriaMetrics)
|
||||
- **功能**:
|
||||
- 评估告警规则 (`alert_rules.yml`)
|
||||
- 提供 PromQL 查询接口
|
||||
- 发送告警到 Alertmanager
|
||||
- **数据路径**:`/storage/prometheus-data`
|
||||
|
||||
### 3. Alertmanager (9093)
|
||||
- **作用**:告警管理和通知
|
||||
- **接收**:来自 Prometheus 的告警
|
||||
- **功能**:
|
||||
- 告警分组和去重
|
||||
- 告警抑制
|
||||
- 发送通知(当前配置:webhook `http://127.0.0.1:5001/`)
|
||||
|
||||
### 4. Grafana (3000)
|
||||
- **作用**:数据可视化和仪表板
|
||||
- **数据源**:从 Prometheus 查询数据
|
||||
- **功能**:
|
||||
- 创建图表和仪表板
|
||||
- 多用户管理(组织隔离)
|
||||
- 中文界面
|
||||
- 权限控制
|
||||
- **数据路径**:`/storage/grafana-data`
|
||||
|
||||
## 网络关系
|
||||
|
||||
```
|
||||
monitoring_net (Docker Bridge Network)
|
||||
│
|
||||
├─ prometheus-central:9090 (内部)
|
||||
│ └─> 映射到宿主机:9091
|
||||
│
|
||||
├─ grafana:3000 (内部)
|
||||
│ └─> 映射到宿主机:3000
|
||||
│
|
||||
├─ alertmanager:9093 (内部)
|
||||
│ └─> 映射到宿主机:9093
|
||||
│
|
||||
└─ victoria-metrics:8428 (内部)
|
||||
└─> 映射到宿主机:8428
|
||||
```
|
||||
|
||||
## 端口映射
|
||||
|
||||
| 容器 | 内部端口 | 外部端口 | 用途 |
|
||||
|------|---------|---------|------|
|
||||
| Prometheus | 9090 | 9091 | PromQL 查询和 Web UI |
|
||||
| Grafana | 3000 | 3000 | 可视化仪表板 |
|
||||
| Alertmanager | 9093 | 9093 | 告警管理界面 |
|
||||
| VictoriaMetrics | 8428 | 8428 | 远程写入和查询接口 |
|
||||
|
||||
## 数据存储
|
||||
|
||||
所有数据存储在 `/storage` 分区:
|
||||
|
||||
```
|
||||
/storage/
|
||||
├── prometheus-data/ # Prometheus 时序数据
|
||||
├── grafana-data/ # Grafana 配置和仪表板
|
||||
├── victoria-metrics-data/ # VictoriaMetrics 时序数据
|
||||
└── docker/ # Docker 数据
|
||||
```
|
||||
|
||||
## 依赖关系
|
||||
|
||||
```
|
||||
VictoriaMetrics
|
||||
↑ (数据查询)
|
||||
│
|
||||
Prometheus
|
||||
├─> (告警触发) ──> Alertmanager
|
||||
└─> (数据查询) ──> Grafana
|
||||
```
|
||||
|
||||
**启动顺序**:
|
||||
1. VictoriaMetrics(数据存储)
|
||||
2. Prometheus(依赖 VictoriaMetrics)
|
||||
3. Alertmanager(接收 Prometheus 告警)
|
||||
4. Grafana(查询 Prometheus 数据)
|
||||
284
doc/BEST_PRACTICES.md
Normal file
284
doc/BEST_PRACTICES.md
Normal file
@@ -0,0 +1,284 @@
|
||||
# 最佳实践指南
|
||||
|
||||
## 部署最佳实践
|
||||
|
||||
### 1. 资源规划
|
||||
|
||||
#### 中央服务器
|
||||
|
||||
**推荐配置**:
|
||||
- CPU: 4 核+
|
||||
- 内存: 8GB+
|
||||
- 磁盘: 100GB+(用于数据存储)
|
||||
- 网络: 100Mbps+
|
||||
|
||||
**数据存储**:
|
||||
- 所有数据存储在 `/storage` 分区
|
||||
- 建议使用 SSD 提高性能
|
||||
- 定期清理旧数据
|
||||
|
||||
#### 边缘节点
|
||||
|
||||
**推荐配置**:
|
||||
- CPU: 2 核+
|
||||
- 内存: 2GB+
|
||||
- 磁盘: 10GB+(临时存储)
|
||||
- 网络: 10Mbps+(用于数据推送)
|
||||
|
||||
**资源限制**:
|
||||
- 已在 `docker-compose.yml` 中配置资源限制
|
||||
- 可根据实际硬件调整
|
||||
|
||||
---
|
||||
|
||||
### 2. 网络配置
|
||||
|
||||
#### 防火墙规则
|
||||
|
||||
**中央服务器**:
|
||||
```bash
|
||||
# 开放端口
|
||||
firewall-cmd --permanent --add-port=3000/tcp # Grafana
|
||||
firewall-cmd --permanent --add-port=9091/tcp # Prometheus
|
||||
firewall-cmd --permanent --add-port=8428/tcp # VictoriaMetrics
|
||||
firewall-cmd --permanent --add-port=9093/tcp # Alertmanager
|
||||
firewall-cmd --reload
|
||||
```
|
||||
|
||||
**边缘节点**:
|
||||
- 不需要开放端口(只做数据推送)
|
||||
- 确保可以访问中央服务器 8428 端口
|
||||
|
||||
#### 网络优化
|
||||
|
||||
- 使用内网通信(如果可能)
|
||||
- 配置网络 QoS(确保监控数据优先级)
|
||||
- 使用 VPN 或专线(跨网络部署)
|
||||
|
||||
---
|
||||
|
||||
### 3. 安全配置
|
||||
|
||||
#### 密码安全
|
||||
|
||||
- ✅ 修改 Grafana 默认密码
|
||||
- ✅ 使用强密码
|
||||
- ✅ 定期更换密码
|
||||
- ✅ 不要在配置文件中硬编码密码
|
||||
|
||||
#### 访问控制
|
||||
|
||||
- ✅ 配置 Grafana 多用户和权限
|
||||
- ✅ 限制 Prometheus 访问(仅内网)
|
||||
- ✅ 使用 HTTPS(生产环境)
|
||||
- ✅ 配置防火墙规则
|
||||
|
||||
#### 数据安全
|
||||
|
||||
- ✅ 定期备份配置文件
|
||||
- ✅ 定期备份数据目录
|
||||
- ✅ 加密敏感数据(如设备密码)
|
||||
|
||||
---
|
||||
|
||||
### 4. 监控配置
|
||||
|
||||
#### 监控目标数量
|
||||
|
||||
**建议**:
|
||||
- 单边缘节点:不超过 100 个目标
|
||||
- 中央服务器:可支持数千个目标
|
||||
- 根据硬件性能调整
|
||||
|
||||
#### 抓取间隔
|
||||
|
||||
**建议**:
|
||||
- 关键指标:15-30 秒
|
||||
- 一般指标:60-120 秒
|
||||
- 网络探测:300 秒(5 分钟)
|
||||
|
||||
#### 数据保留
|
||||
|
||||
**中央服务器**:
|
||||
- Prometheus: 30 天
|
||||
- VictoriaMetrics: 30 天
|
||||
|
||||
**边缘节点**:
|
||||
- Prometheus: 1 小时(只做临时存储)
|
||||
|
||||
---
|
||||
|
||||
### 5. 告警配置
|
||||
|
||||
#### 告警规则设计
|
||||
|
||||
**原则**:
|
||||
- 避免告警风暴
|
||||
- 设置合理的持续时间阈值
|
||||
- 使用告警抑制规则
|
||||
- 区分严重程度(critical/warning)
|
||||
|
||||
#### 通知渠道
|
||||
|
||||
**推荐配置**:
|
||||
- Critical 告警:立即通知(短信、电话)
|
||||
- Warning 告警:邮件、企业微信
|
||||
- 使用告警分组减少通知数量
|
||||
|
||||
#### 告警测试
|
||||
|
||||
- 定期测试告警规则
|
||||
- 验证通知渠道
|
||||
- 检查告警抑制规则
|
||||
|
||||
---
|
||||
|
||||
### 6. 性能优化
|
||||
|
||||
#### Prometheus 优化
|
||||
|
||||
- 减少不必要的标签
|
||||
- 使用 recording rules 预计算指标
|
||||
- 合理设置抓取间隔
|
||||
- 使用远程写入减少本地存储压力
|
||||
|
||||
#### VictoriaMetrics 优化
|
||||
|
||||
- 根据数据量调整保留时间
|
||||
- 定期清理旧数据
|
||||
- 监控存储空间使用
|
||||
|
||||
#### Grafana 优化
|
||||
|
||||
- 限制仪表板面板数量
|
||||
- 使用数据源缓存
|
||||
- 优化查询表达式
|
||||
- 使用变量减少查询次数
|
||||
|
||||
---
|
||||
|
||||
### 7. 备份和恢复
|
||||
|
||||
#### 配置文件备份
|
||||
|
||||
```bash
|
||||
# 备份所有配置文件
|
||||
tar -czf config-backup-$(date +%Y%m%d).tar.gz \
|
||||
central-server/*.yml \
|
||||
central-server/alertmanager/*.yml \
|
||||
central-server/grafana/provisioning/ \
|
||||
edge-agent/*.yml \
|
||||
edge-agent/prometheus-edge/*.yml
|
||||
```
|
||||
|
||||
#### 数据备份
|
||||
|
||||
```bash
|
||||
# 备份数据目录
|
||||
tar -czf data-backup-$(date +%Y%m%d).tar.gz \
|
||||
/storage/prometheus-data \
|
||||
/storage/grafana-data \
|
||||
/storage/victoria-metrics-data
|
||||
```
|
||||
|
||||
#### 恢复步骤
|
||||
|
||||
1. 停止所有服务
|
||||
2. 恢复配置文件
|
||||
3. 恢复数据目录
|
||||
4. 重启服务
|
||||
5. 验证数据完整性
|
||||
|
||||
---
|
||||
|
||||
### 8. 监控和维护
|
||||
|
||||
#### 监控系统自身
|
||||
|
||||
- 监控 Prometheus 自身指标
|
||||
- 监控 VictoriaMetrics 性能
|
||||
- 监控 Grafana 性能
|
||||
- 监控磁盘空间使用
|
||||
|
||||
#### 定期维护
|
||||
|
||||
- 每周检查日志
|
||||
- 每月检查磁盘空间
|
||||
- 每季度更新镜像版本
|
||||
- 定期测试告警规则
|
||||
|
||||
---
|
||||
|
||||
### 9. 扩展性考虑
|
||||
|
||||
#### 水平扩展
|
||||
|
||||
- 可以部署多个边缘节点
|
||||
- 每个边缘节点有唯一标识
|
||||
- 中央服务器可以接收多个边缘节点数据
|
||||
|
||||
#### 垂直扩展
|
||||
|
||||
- 增加中央服务器资源
|
||||
- 增加数据保留时间
|
||||
- 增加监控目标数量
|
||||
|
||||
---
|
||||
|
||||
### 10. 故障恢复
|
||||
|
||||
#### 服务恢复
|
||||
|
||||
```bash
|
||||
# 重启所有服务
|
||||
docker compose restart
|
||||
|
||||
# 重启特定服务
|
||||
docker compose restart prometheus-central
|
||||
|
||||
# 完全重建
|
||||
docker compose down
|
||||
docker compose up -d
|
||||
```
|
||||
|
||||
#### 数据恢复
|
||||
|
||||
- 从备份恢复数据
|
||||
- 检查数据完整性
|
||||
- 验证监控目标状态
|
||||
|
||||
---
|
||||
|
||||
## 生产环境检查清单
|
||||
|
||||
### 部署前
|
||||
|
||||
- [ ] 硬件资源充足
|
||||
- [ ] 网络配置正确
|
||||
- [ ] 防火墙规则配置
|
||||
- [ ] 备份策略制定
|
||||
- [ ] 监控告警配置
|
||||
|
||||
### 部署后
|
||||
|
||||
- [ ] 所有服务正常运行
|
||||
- [ ] 数据正常推送
|
||||
- [ ] 告警规则激活
|
||||
- [ ] 通知渠道测试
|
||||
- [ ] 性能监控正常
|
||||
|
||||
### 运行中
|
||||
|
||||
- [ ] 定期检查日志
|
||||
- [ ] 监控磁盘空间
|
||||
- [ ] 检查告警状态
|
||||
- [ ] 验证数据完整性
|
||||
- [ ] 更新文档
|
||||
|
||||
---
|
||||
|
||||
## 相关文档
|
||||
|
||||
- **部署指南**:`doc/DEPLOYMENT_GUIDE.md`
|
||||
- **故障排查**:`doc/TROUBLESHOOTING.md`
|
||||
- **系统架构**:`doc/ARCHITECTURE.md`
|
||||
326
doc/CENTRAL_SERVER_CONFIG.md
Normal file
326
doc/CENTRAL_SERVER_CONFIG.md
Normal file
@@ -0,0 +1,326 @@
|
||||
# 中央服务器配置文件说明
|
||||
|
||||
## 目录结构
|
||||
|
||||
```
|
||||
central-server/
|
||||
├── docker-compose.yml # Docker Compose 服务编排配置
|
||||
├── deploy.sh # 部署脚本
|
||||
├── prometheus.yml # Prometheus 主配置文件
|
||||
├── alert_rules.yml # 告警规则定义
|
||||
├── alertmanager/
|
||||
│ └── alertmanager.yml # Alertmanager 告警管理配置
|
||||
└── grafana/
|
||||
├── setup-users.sh # 多用户配置脚本
|
||||
├── provisioning/
|
||||
│ ├── datasources/ # 数据源自动配置
|
||||
│ │ ├── prometheus.yml # Prometheus 数据源
|
||||
│ │ └── prometheus-admin.yml # 管理员全局数据源
|
||||
│ └── dashboards/ # 仪表板自动配置
|
||||
│ └── dashboard.yml # 仪表板配置
|
||||
└── dashboards/
|
||||
└── onvif-monitoring.json # ONVIF 监控仪表板
|
||||
```
|
||||
|
||||
## 配置文件详解
|
||||
|
||||
### 1. docker-compose.yml
|
||||
|
||||
**作用**:定义所有 Docker 容器的配置和编排
|
||||
|
||||
**包含的服务**:
|
||||
- `prometheus-central` - Prometheus 中央服务器(端口 9091)
|
||||
- `grafana` - Grafana 可视化仪表板(端口 3000,中文界面)
|
||||
- `alertmanager` - 告警管理器(端口 9093)
|
||||
- `victoria-metrics` - 远程写入接收器(端口 8428)
|
||||
|
||||
**关键配置**:
|
||||
- 数据存储:所有数据存储在 `/storage` 分区
|
||||
- 网络:所有容器在 `monitoring_net` 网络中
|
||||
- 卷挂载:配置文件、数据目录、仪表板等
|
||||
|
||||
**使用**:
|
||||
```bash
|
||||
docker compose up -d # 启动所有服务
|
||||
docker compose down # 停止所有服务
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
### 2. deploy.sh
|
||||
|
||||
**作用**:自动化部署脚本,一键部署中央服务器
|
||||
|
||||
**功能**:
|
||||
1. ✅ 检查 Docker 和 Docker Compose 环境
|
||||
2. ✅ 检查磁盘空间(根分区和 /storage 分区)
|
||||
3. ✅ 验证配置文件存在性
|
||||
4. ✅ 创建数据目录并设置权限
|
||||
5. ✅ 拉取 Docker 镜像
|
||||
6. ✅ 启动所有服务
|
||||
7. ✅ 检查服务状态
|
||||
|
||||
**使用**:
|
||||
```bash
|
||||
bash deploy.sh
|
||||
```
|
||||
|
||||
**输出信息**:
|
||||
- 服务访问地址
|
||||
- 管理命令
|
||||
- 防火墙提示
|
||||
- 下一步操作建议
|
||||
|
||||
---
|
||||
|
||||
### 3. prometheus.yml
|
||||
|
||||
**作用**:Prometheus 主配置文件,定义数据收集和查询规则
|
||||
|
||||
**主要配置**:
|
||||
|
||||
#### Global(全局配置)
|
||||
```yaml
|
||||
scrape_interval: 15s # 抓取间隔
|
||||
evaluation_interval: 15s # 告警规则评估间隔
|
||||
external_labels:
|
||||
cluster: 'central-monitoring' # 集群标识
|
||||
```
|
||||
|
||||
#### Remote Write(远程写入)
|
||||
```yaml
|
||||
remote_write:
|
||||
- url: http://victoria-metrics:8428/api/v1/write
|
||||
```
|
||||
- **作用**:将 Prometheus 收集的数据写入 VictoriaMetrics
|
||||
- **目的**:接收边缘节点推送的数据
|
||||
|
||||
#### Scrape Configs(抓取配置)
|
||||
定义了 4 个抓取任务:
|
||||
1. **prometheus-central** - 抓取自身指标
|
||||
2. **victoria-metrics** - 抓取 VictoriaMetrics 指标
|
||||
3. **alertmanager** - 抓取 Alertmanager 指标
|
||||
4. **grafana** - 抓取 Grafana 指标
|
||||
|
||||
#### Rule Files(告警规则文件)
|
||||
```yaml
|
||||
rule_files:
|
||||
- "alert_rules.yml"
|
||||
```
|
||||
- 引用 `alert_rules.yml` 文件中的告警规则
|
||||
|
||||
#### Alerting(告警配置)
|
||||
```yaml
|
||||
alerting:
|
||||
alertmanagers:
|
||||
- static_configs:
|
||||
- targets:
|
||||
- alertmanager:9093
|
||||
```
|
||||
- 配置 Alertmanager 地址,用于发送告警
|
||||
|
||||
---
|
||||
|
||||
### 4. alert_rules.yml
|
||||
|
||||
**作用**:定义告警规则,当监控指标满足条件时触发告警
|
||||
|
||||
**告警组**:
|
||||
|
||||
#### onvif_alerts(ONVIF 设备告警组)
|
||||
- **ONVIFDeviceDown** - 设备离线告警(critical)
|
||||
- **ONVIFDeviceHighTemperature** - 设备温度过高告警(warning)
|
||||
- **ONVIFDeviceLowStorage** - 设备存储空间不足告警(warning)
|
||||
|
||||
#### network_alerts(网络设备告警组)
|
||||
- **NetworkDeviceDown** - 网络设备离线告警(critical)
|
||||
- **HighNetworkLatency** - 网络延迟过高告警(warning)
|
||||
|
||||
**告警规则格式**:
|
||||
```yaml
|
||||
- alert: AlertName
|
||||
expr: promql_query # PromQL 查询表达式
|
||||
for: 1m # 持续时间
|
||||
labels:
|
||||
severity: critical # 严重程度
|
||||
annotations:
|
||||
summary: "告警摘要"
|
||||
description: "详细描述"
|
||||
```
|
||||
|
||||
**详细说明**:参考 `doc/ALERT_RULES_EXPLANATION.md`
|
||||
|
||||
---
|
||||
|
||||
### 5. alertmanager/alertmanager.yml
|
||||
|
||||
**作用**:Alertmanager 配置,定义告警路由和通知方式
|
||||
|
||||
**主要配置**:
|
||||
|
||||
#### Global(全局配置)
|
||||
- SMTP 邮件服务器配置(当前未使用)
|
||||
|
||||
#### Route(路由配置)
|
||||
- 告警分组规则
|
||||
- 告警发送间隔
|
||||
- 默认接收器
|
||||
|
||||
#### Receivers(接收器)
|
||||
- 当前配置:Webhook `http://127.0.0.1:5001/`
|
||||
- 可配置:邮件、企业微信、钉钉等
|
||||
|
||||
#### Inhibit Rules(抑制规则)
|
||||
- 避免重复告警
|
||||
- 当 critical 告警存在时,抑制 warning 告警
|
||||
|
||||
**详细说明**:参考 `doc/ALERTMANAGER_CONFIG.md`
|
||||
|
||||
---
|
||||
|
||||
### 6. grafana/provisioning/
|
||||
|
||||
**作用**:Grafana 自动配置目录,容器启动时自动加载
|
||||
|
||||
#### datasources/prometheus.yml
|
||||
|
||||
**作用**:自动配置 Prometheus 数据源
|
||||
|
||||
**配置内容**:
|
||||
- 数据源名称:Prometheus
|
||||
- 数据源类型:prometheus
|
||||
- 访问方式:proxy(通过 Grafana 代理)
|
||||
- URL:`http://prometheus-central:9090`
|
||||
- 默认数据源:是
|
||||
|
||||
#### datasources/prometheus-admin.yml
|
||||
|
||||
**作用**:管理员全局数据源(可选)
|
||||
|
||||
**特点**:
|
||||
- 允许管理员查看所有数据(不受标签过滤限制)
|
||||
- 用于管理员查看全局监控数据
|
||||
|
||||
#### dashboards/dashboard.yml
|
||||
|
||||
**作用**:自动加载仪表板配置
|
||||
|
||||
**配置内容**:
|
||||
- 从 `/var/lib/grafana/dashboards` 目录自动加载仪表板
|
||||
- 更新间隔:10 秒
|
||||
- 允许 UI 更新:是
|
||||
|
||||
---
|
||||
|
||||
### 7. grafana/dashboards/onvif-monitoring.json
|
||||
|
||||
**作用**:ONVIF 设备监控仪表板
|
||||
|
||||
**内容**:
|
||||
- ONVIF 设备状态面板
|
||||
- 设备在线率仪表
|
||||
- 其他监控图表
|
||||
|
||||
**自动加载**:通过 `dashboard.yml` 配置自动加载
|
||||
|
||||
---
|
||||
|
||||
### 8. grafana/setup-users.sh
|
||||
|
||||
**作用**:自动化配置 Grafana 多用户和组织
|
||||
|
||||
**功能**:
|
||||
- 创建 Grafana 组织
|
||||
- 创建用户并分配到组织
|
||||
- 通过 Grafana API 批量配置
|
||||
|
||||
**使用**:
|
||||
```bash
|
||||
cd central-server/grafana
|
||||
bash setup-users.sh
|
||||
```
|
||||
|
||||
**详细说明**:参考 `doc/USER_MANAGEMENT.md`
|
||||
|
||||
---
|
||||
|
||||
## 配置文件关系图
|
||||
|
||||
```
|
||||
docker-compose.yml
|
||||
│
|
||||
├─> prometheus.yml ──┐
|
||||
│ │
|
||||
├─> alert_rules.yml ──┤──> Prometheus 容器
|
||||
│ │
|
||||
└─> alertmanager.yml ─┘──> Alertmanager 容器
|
||||
│
|
||||
└─> grafana/
|
||||
├─> provisioning/ ──> Grafana 自动配置
|
||||
└─> dashboards/ ────> 仪表板文件
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 数据流向
|
||||
|
||||
```
|
||||
边缘节点数据
|
||||
│
|
||||
▼
|
||||
VictoriaMetrics (8428) ──> 存储数据
|
||||
│
|
||||
▼
|
||||
Prometheus (9091) ──┬──> 查询数据 ──> Grafana (3000)
|
||||
│ │
|
||||
└──> 评估告警规则 (alert_rules.yml)
|
||||
│
|
||||
▼
|
||||
Alertmanager (9093) ──> 发送通知
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 配置文件修改指南
|
||||
|
||||
### 修改 Prometheus 配置
|
||||
|
||||
1. 编辑 `prometheus.yml`
|
||||
2. 重启容器:`docker compose restart prometheus-central`
|
||||
3. 或使用热重载:`curl -X POST http://localhost:9091/-/reload`
|
||||
|
||||
### 修改告警规则
|
||||
|
||||
1. 编辑 `alert_rules.yml`
|
||||
2. 重启容器:`docker compose restart prometheus-central`
|
||||
3. 或使用热重载:`curl -X POST http://localhost:9091/-/reload`
|
||||
|
||||
### 修改 Alertmanager 配置
|
||||
|
||||
1. 编辑 `alertmanager/alertmanager.yml`
|
||||
2. 重启容器:`docker compose restart alertmanager`
|
||||
|
||||
### 修改 Grafana 配置
|
||||
|
||||
1. 编辑 `grafana/provisioning/` 下的配置文件
|
||||
2. 重启容器:`docker compose restart grafana`
|
||||
3. 或通过 Grafana Web UI 修改(会持久化到数据库)
|
||||
|
||||
---
|
||||
|
||||
## 重要提示
|
||||
|
||||
1. **数据存储**:所有数据存储在 `/storage` 分区,避免根分区空间不足
|
||||
2. **端口映射**:Prometheus 使用 9091(避免与 cockpit 冲突)
|
||||
3. **配置文件权限**:确保配置文件有正确的读取权限
|
||||
4. **网络连通性**:确保边缘节点可以访问 8428 端口(VictoriaMetrics)
|
||||
5. **告警通知**:当前配置使用 webhook,需要部署接收服务或修改为其他通知方式
|
||||
|
||||
---
|
||||
|
||||
## 相关文档
|
||||
|
||||
- **系统架构**:`doc/ARCHITECTURE.md`
|
||||
- **告警规则**:`doc/ALERT_RULES_EXPLANATION.md`
|
||||
- **Alertmanager 配置**:`doc/ALERTMANAGER_CONFIG.md`
|
||||
- **用户管理**:`doc/USER_MANAGEMENT.md`
|
||||
161
doc/DEPLOYMENT_GUIDE.md
Normal file
161
doc/DEPLOYMENT_GUIDE.md
Normal file
@@ -0,0 +1,161 @@
|
||||
# 部署指南
|
||||
|
||||
部署顺序见 **[doc/README.md](README.md)#部署顺序**:**第一步 中央服务器 → 第二步 边缘节点 → 第三步(可选)多用户与告警**。本文为各步的详细说明、检查清单与常见问题。
|
||||
|
||||
---
|
||||
|
||||
## 第一步:部署中央服务器
|
||||
|
||||
### 前置要求
|
||||
|
||||
- Docker 与 Docker Compose 已安装
|
||||
- 根分区至少约 1GB 可用;数据目录所在分区至少约 2GB
|
||||
- 端口未被占用:3000(Grafana)、9091(Prometheus)、8428(VictoriaMetrics)、9093(Alertmanager)
|
||||
- 若需外网访问:防火墙开放上述端口
|
||||
|
||||
### 操作步骤
|
||||
|
||||
1. 进入目录并准备环境(可选):
|
||||
```bash
|
||||
cd central-server
|
||||
cp env.example .env # 可选:修改端口、Traefik、网络等
|
||||
```
|
||||
|
||||
2. 执行部署:
|
||||
```bash
|
||||
bash deploy.sh
|
||||
```
|
||||
|
||||
3. 等待约 15 秒后检查:
|
||||
```bash
|
||||
docker compose ps
|
||||
```
|
||||
|
||||
4. 验证访问:
|
||||
- Grafana: http://localhost:3000(默认 admin / admin123)
|
||||
- Prometheus: http://localhost:9091
|
||||
- VictoriaMetrics: http://localhost:8428
|
||||
- Alertmanager: http://localhost:9093
|
||||
|
||||
### 中央服务器检查清单
|
||||
|
||||
- [ ] Docker、Docker Compose 已安装
|
||||
- [ ] 磁盘空间充足(根分区约 1GB+,数据分区约 2GB+)
|
||||
- [ ] 端口 3000、9091、8428、9093 未被占用
|
||||
- [ ] 需要时已开放防火墙
|
||||
- [ ] 部署后能打开 Grafana、Prometheus
|
||||
|
||||
---
|
||||
|
||||
## 第二步:部署边缘节点
|
||||
|
||||
**前提**:第一步中央服务器已部署并正常运行(尤其 VictoriaMetrics 8428 可访问)。
|
||||
|
||||
### 前置要求
|
||||
|
||||
- Docker、Docker Compose 已安装
|
||||
- `jq` 已安装(用于生成 JSON 配置)
|
||||
- 边缘节点能访问中央服务器(能访问中央 IP:8428)
|
||||
- 如需监控 ONVIF/网络设备:网络可达这些设备
|
||||
|
||||
### 情形 A:本机同机部署(中央与边缘在同一台机器)
|
||||
|
||||
```bash
|
||||
cd edge-agent
|
||||
bash run-edge-local.sh
|
||||
```
|
||||
|
||||
脚本会自动将中央地址设为 `host.docker.internal:8428` 并执行部署。边缘 Prometheus UI:http://localhost:9092。
|
||||
|
||||
### 情形 B:边缘在另一台机器
|
||||
|
||||
1. 进入目录并配置中央地址:
|
||||
```bash
|
||||
cd edge-agent
|
||||
cp env.example .env
|
||||
```
|
||||
编辑 `.env`:
|
||||
- `CENTRAL_SERVER_HOST=` 中央服务器 IP 或域名
|
||||
- `CENTRAL_SERVER_PORT=8428`
|
||||
|
||||
2. 配置监控目标并生成配置:
|
||||
```bash
|
||||
# 编辑 config/targets.csv(Ping / ONVIF),详见 TARGETS_CSV_GUIDE.md
|
||||
cd config && chmod +x *.sh && ./update-configs.sh && cd ..
|
||||
```
|
||||
|
||||
3. 部署:
|
||||
```bash
|
||||
bash deploy.sh
|
||||
```
|
||||
|
||||
4. 验证:
|
||||
- 边缘 Prometheus: http://localhost:9092(或边缘机器 IP:9092)
|
||||
- 在中央 Grafana 中**选择数据源「VictoriaMetrics」**,查询如 `up{job="network-ping"}` 或 `up{region="workernode_1"}` 应能看到边缘数据
|
||||
|
||||
### 边缘节点检查清单
|
||||
|
||||
- [ ] 中央服务器已部署且 VictoriaMetrics 可访问(端口 8428)
|
||||
- [ ] `.env` 中 `CENTRAL_SERVER_HOST`、`CENTRAL_SERVER_PORT` 正确
|
||||
- [ ] `config/targets.csv` 已配置(或已生成 `onvif-targets.json`、`ping-targets.json`)
|
||||
- [ ] 已执行 `config/update-configs.sh`
|
||||
- [ ] 边缘能访问中央 8428 端口
|
||||
- [ ] 部署后在 Grafana 的 VictoriaMetrics 数据源中能看到边缘指标
|
||||
|
||||
---
|
||||
|
||||
## 第三步(可选):多用户与告警
|
||||
|
||||
- **Grafana 多用户**:在中央服务器上执行 `cd central-server/grafana && bash setup-users.sh`,然后按 [USER_MANAGEMENT.md](USER_MANAGEMENT.md) 配置组织、用户与数据源。
|
||||
- **告警规则**:中央已内置 `alert_rules.yml`;如需调整见 [ALERT_RULES_EXPLANATION.md](ALERT_RULES_EXPLANATION.md)。
|
||||
- **告警通知**:编辑 `central-server/alertmanager/alertmanager.yml` 配置接收端,见 [ALERTMANAGER_CONFIG.md](ALERTMANAGER_CONFIG.md)。
|
||||
|
||||
---
|
||||
|
||||
## 部署后验证
|
||||
|
||||
### 中央
|
||||
|
||||
- `docker compose ps` 中 prometheus-central、grafana、victoria-metrics、alertmanager 为 Up
|
||||
- 能打开 Grafana、Prometheus、Alertmanager、VictoriaMetrics 的 Web 界面
|
||||
- Grafana 中「Prometheus」数据源可查询到中央自身指标(如 `up`)
|
||||
|
||||
### 边缘
|
||||
|
||||
- `docker compose ps` 中 prometheus-edge、onvif-exporter、blackbox-exporter 为 Up
|
||||
- 边缘 Prometheus http://localhost:9092/targets 中目标状态正常
|
||||
- 中央 Grafana 中**选择数据源「VictoriaMetrics」**,能查到边缘相关指标(如 `up{job="network-ping"}`)
|
||||
|
||||
---
|
||||
|
||||
## 常见部署问题
|
||||
|
||||
### 端口冲突
|
||||
|
||||
- 现象:容器启动失败,提示端口已被占用。
|
||||
- 处理:`netstat -tulpn | grep <端口>` 或 `ss -tulpn` 查看占用;修改对应 `docker-compose.yml` 端口映射或关闭占用进程。
|
||||
|
||||
### 磁盘空间不足
|
||||
|
||||
- 现象:拉镜像或启动失败。
|
||||
- 处理:`df -h` 检查空间;`docker system prune -a --volumes` 清理(注意会删未用卷);保证数据目录所在分区空间充足。
|
||||
|
||||
### 边缘无法连接中央
|
||||
|
||||
- 现象:边缘数据未出现在中央 Grafana 的 VictoriaMetrics 中。
|
||||
- 处理:从边缘节点 `telnet <中央IP> 8428` 或 `curl -s -o /dev/null -w "%{http_code}" http://<中央IP>:8428/health`;检查防火墙与 `.env` 中 `CENTRAL_SERVER_HOST`、`CENTRAL_SERVER_PORT`。
|
||||
|
||||
### Grafana 中看不到边缘数据
|
||||
|
||||
- 确认在 Grafana 里选择的是**数据源「VictoriaMetrics」**,不是「Prometheus」(中央自抓数据在 Prometheus)。
|
||||
- 确认边缘已部署且 remote_write 指向中央 8428;边缘 Prometheus 日志无推送错误。
|
||||
|
||||
---
|
||||
|
||||
## 相关文档
|
||||
|
||||
- 部署顺序总览:[README.md#部署顺序](README.md)
|
||||
- 中央配置:[CENTRAL_SERVER_CONFIG.md](CENTRAL_SERVER_CONFIG.md)、[central-server/CONFIGURATION.md](../central-server/CONFIGURATION.md)
|
||||
- 边缘配置与目标:[EDGE_NODE_SETUP.md](EDGE_NODE_SETUP.md)、[EDGE_AGENT_CONFIG.md](EDGE_AGENT_CONFIG.md)、[TARGETS_CSV_GUIDE.md](TARGETS_CSV_GUIDE.md)
|
||||
- 架构:[ARCHITECTURE.md](ARCHITECTURE.md)
|
||||
- 故障排查:[TROUBLESHOOTING.md](TROUBLESHOOTING.md)
|
||||
323
doc/EDGE_AGENT_CONFIG.md
Normal file
323
doc/EDGE_AGENT_CONFIG.md
Normal file
@@ -0,0 +1,323 @@
|
||||
# 边缘节点配置文件说明
|
||||
|
||||
## 边缘节点需要什么
|
||||
|
||||
| 类型 | 说明 | 对应组件 |
|
||||
|------|------|----------|
|
||||
| **必选** | **remote_write**:把边缘指标推到中央 | **prometheus-edge**(内配 remote_write 到中央 VictoriaMetrics) |
|
||||
| **必选** | **Blackbox**:Ping/网络探测 | **blackbox-exporter** 容器 |
|
||||
| **可选** | ONVIF、SNMP、Frigate 等 | **onvif-exporter**(`--profile onvif`)、或自建/第三方镜像 |
|
||||
|
||||
默认部署只起 **prometheus-edge** + **blackbox-exporter**;需要 ONVIF 时再设 `ONVIF_EXPORTER_IMAGE` 并 `docker compose --profile onvif up -d`。参见 [ONVIF_ALTERNATIVES.md](ONVIF_ALTERNATIVES.md)。
|
||||
|
||||
---
|
||||
|
||||
## 边缘节点各容器分别做什么
|
||||
|
||||
| 容器 | 必选/可选 | 作用 | 端口/接口 |
|
||||
|------|-----------|------|-----------|
|
||||
| **prometheus-edge** | **必选** | 抓取 Blackbox(及可选 ONVIF 等),通过 **remote_write** 推送到中央 VictoriaMetrics | 对外 9092;内部抓取 blackbox:9115、可选 onvif:9600 |
|
||||
| **blackbox-exporter** | **必选** | 网络 Ping/HTTP/TCP 探测,暴露 `/probe` 给 prometheus-edge 抓取 | 容器内 9115 |
|
||||
| **onvif-exporter** | **可选** | 本项目自建:读取 `config/onvif-targets.json`,ONVIF GetDeviceInformation 探测,暴露 `onvif_device_up`、`onvif_probe_duration_seconds`。启用:`docker compose --profile onvif up -d --build`。 | 容器内 9600 |
|
||||
|
||||
**数据流**:Ping 目标 → blackbox-exporter:9115 → prometheus-edge 抓取 → **remote_write** → 中央 VictoriaMetrics。
|
||||
若启用 ONVIF:ONVIF 设备 → onvif-exporter:9600 → prometheus-edge 抓取 → remote_write → 中央。
|
||||
|
||||
---
|
||||
|
||||
## ONVIF 镜像替代方案
|
||||
|
||||
**说明**:目前**没有**公开可用的 ONVIF→Prometheus 镜像(如 ghcr.io/atiek/onvif-exporter 已不存在)。可选做法:
|
||||
|
||||
| 方式 | 说明 |
|
||||
|------|------|
|
||||
| **用替代方案** | 摄像头支持 SNMP 时用 **prom/snmp-exporter**;已用 Frigate 时抓其 `/api/metrics`;仅需在线监控时用 **Blackbox** 对摄像头 IP 做 Ping/HTTP。详见 **[ONVIF_ALTERNATIVES.md](ONVIF_ALTERNATIVES.md)**。 |
|
||||
| **ONVIF 可选** | 边缘默认不启动 ONVIF 服务(无可用镜像)。需要时自建镜像并在 `.env` 设 `ONVIF_EXPORTER_IMAGE=你的镜像:tag`,再执行 `docker compose --profile onvif up -d`。 |
|
||||
| **自建镜像** | 基于 Go ONVIF 库编写 exporter 并构建镜像,见 ONVIF_ALTERNATIVES.md 中「ONVIF 自建 Exporter」。 |
|
||||
|
||||
---
|
||||
|
||||
## 目录结构
|
||||
|
||||
```
|
||||
edge-agent/
|
||||
├── docker-compose.yml # Docker Compose 服务编排配置
|
||||
├── deploy.sh # 部署脚本
|
||||
├── quick-setup.sh # 快速配置脚本
|
||||
├── env.example # 环境变量示例
|
||||
├── prometheus-edge/
|
||||
│ └── prometheus.yml # Prometheus Edge 配置
|
||||
├── blackbox/
|
||||
│ └── config.yml # Blackbox Exporter 配置
|
||||
└── config/
|
||||
├── targets.csv # 统一监控目标配置(推荐)
|
||||
├── devices.csv # ONVIF 设备配置(旧格式)
|
||||
├── ping-targets.csv # Ping 目标配置(旧格式)
|
||||
├── onvif-targets.json # ONVIF 设备 JSON 配置(自动生成)
|
||||
├── ping-targets.json # Ping 目标 JSON 配置(自动生成)
|
||||
├── update-configs.sh # 配置文件更新脚本
|
||||
├── csv-to-targets.sh # 统一配置转换脚本
|
||||
├── csv-to-json.sh # ONVIF 配置转换脚本
|
||||
├── csv-to-ping-json.sh # Ping 配置转换脚本
|
||||
├── setup-remote-write.sh # 远程写入配置脚本
|
||||
└── test-connection.sh # 连接测试脚本
|
||||
```
|
||||
|
||||
## 配置文件详解
|
||||
|
||||
### 1. docker-compose.yml
|
||||
|
||||
**作用**:定义边缘节点的 Docker 容器配置
|
||||
|
||||
**包含的服务**:
|
||||
- **必选**:`prometheus-edge`(抓取 + remote_write)、`blackbox-exporter`(Ping 探测)
|
||||
- **可选**:`onvif-exporter`(需 `--profile onvif` 且设置 `ONVIF_EXPORTER_IMAGE`)
|
||||
|
||||
**关键配置**:
|
||||
- 资源限制:内存和 CPU 限制(适合边缘设备)
|
||||
- 环境变量:中央服务器地址和端口
|
||||
- 数据保留:1 小时(边缘节点只做临时存储)
|
||||
- 远程写入:自动推送到中央服务器
|
||||
|
||||
---
|
||||
|
||||
### 2. deploy.sh
|
||||
|
||||
**作用**:自动化部署脚本,一键部署边缘节点
|
||||
|
||||
**功能**:
|
||||
1. ✅ 检查 Docker 和 Docker Compose 环境
|
||||
2. ✅ 检查 jq 工具(用于配置转换)
|
||||
3. ✅ 生成配置文件(从 CSV 到 JSON)
|
||||
4. ✅ 验证配置文件存在性
|
||||
5. ✅ 创建环境变量文件
|
||||
6. ✅ 创建数据目录
|
||||
7. ✅ 拉取 Docker 镜像
|
||||
8. ✅ 启动所有服务
|
||||
|
||||
**使用**:
|
||||
```bash
|
||||
bash deploy.sh
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
### 3. quick-setup.sh
|
||||
|
||||
**作用**:快速配置脚本,自动配置边缘节点
|
||||
|
||||
**功能**:
|
||||
- 自动检测本机 IP
|
||||
- 创建 `.env` 文件
|
||||
- 配置统一监控目标(`targets.csv`)
|
||||
- 生成配置文件
|
||||
- 可选择立即部署
|
||||
|
||||
**使用**:
|
||||
```bash
|
||||
bash quick-setup.sh
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
### 4. env.example / .env
|
||||
|
||||
**作用**:环境变量配置
|
||||
|
||||
**配置项**:
|
||||
```bash
|
||||
CENTRAL_SERVER_HOST=192.168.2.21 # 中央服务器地址
|
||||
CENTRAL_SERVER_PORT=8428 # 中央服务器端口
|
||||
EDGE_NODE_ID=workernode_1 # 边缘节点标识
|
||||
```
|
||||
|
||||
**说明**:
|
||||
- `env.example` 是示例文件
|
||||
- 部署时会自动创建 `.env` 文件
|
||||
- 需要根据实际情况修改
|
||||
|
||||
---
|
||||
|
||||
### 5. prometheus-edge/prometheus.yml
|
||||
|
||||
**作用**:边缘 Prometheus 主配置文件
|
||||
|
||||
**主要配置**:
|
||||
|
||||
#### Global(全局配置)
|
||||
```yaml
|
||||
scrape_interval: 120s # 抓取间隔(2分钟)
|
||||
evaluation_interval: 120s # 告警评估间隔
|
||||
external_labels:
|
||||
region: workernode_1 # 边缘节点标识
|
||||
```
|
||||
|
||||
#### Remote Write(远程写入)
|
||||
```yaml
|
||||
remote_write:
|
||||
- url: http://${CENTRAL_SERVER_HOST}:${CENTRAL_SERVER_PORT}/api/v1/write
|
||||
```
|
||||
- **作用**:将收集的数据推送到中央服务器 VictoriaMetrics
|
||||
- **目的**:边缘节点不存储长期数据,只做数据收集和转发
|
||||
|
||||
#### Scrape Configs(抓取配置)
|
||||
定义了 3 个抓取任务:
|
||||
1. **onvif-devices** - 抓取 ONVIF 设备指标(通过 ONVIF Exporter)
|
||||
2. **network-ping** - 抓取网络探测指标(通过 Blackbox Exporter)
|
||||
3. **prometheus-edge** - 抓取自身指标
|
||||
|
||||
**数据保留**:1 小时(边缘节点只做临时存储)
|
||||
|
||||
---
|
||||
|
||||
### 6. blackbox/config.yml
|
||||
|
||||
**作用**:Blackbox Exporter 探测模块配置
|
||||
|
||||
**支持的探测类型**:
|
||||
- `icmp` - ICMP Ping 探测
|
||||
- `tcp_connect` - TCP 连接探测
|
||||
- `http_2xx` - HTTP 服务探测
|
||||
- `http_post_2xx` - HTTP POST 探测
|
||||
- `tcp_connect_tls` - TLS 连接探测
|
||||
|
||||
**当前使用**:主要使用 `icmp` 模块进行网络连通性探测
|
||||
|
||||
---
|
||||
|
||||
### 7. config/targets.csv
|
||||
|
||||
**作用**:统一监控目标配置文件(推荐使用)
|
||||
|
||||
**格式**:
|
||||
```csv
|
||||
type,ip,device,group,network,device_type,model,location,username,password,onvif_port
|
||||
ping,8.8.8.8,google_dns,external,external,,,,,,
|
||||
onvif,192.168.1.100,,,front_door,camera,HIKVISION_DS-2CD2342WD-I,front_door,admin,password1,80
|
||||
```
|
||||
|
||||
**说明**:
|
||||
- `type` 字段:`ping` 或 `onvif`
|
||||
- 可以在一个文件中配置所有监控目标
|
||||
- 详细说明参考:`doc/TARGETS_CSV_GUIDE.md`
|
||||
|
||||
---
|
||||
|
||||
### 8. config/update-configs.sh
|
||||
|
||||
**作用**:从 CSV 文件生成 JSON 配置文件
|
||||
|
||||
**功能**:
|
||||
- 优先使用 `targets.csv`(统一配置)
|
||||
- 兼容旧格式(`devices.csv` + `ping-targets.csv`)
|
||||
- 自动生成 `onvif-targets.json` 和 `ping-targets.json`
|
||||
|
||||
**使用**:
|
||||
```bash
|
||||
cd config
|
||||
./update-configs.sh
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
### 9. config/csv-to-targets.sh
|
||||
|
||||
**作用**:统一配置转换脚本
|
||||
|
||||
**功能**:
|
||||
- 从 `targets.csv` 读取配置
|
||||
- 根据 `type` 字段分离 ONVIF 和 Ping 目标
|
||||
- 生成对应的 JSON 配置文件
|
||||
|
||||
---
|
||||
|
||||
### 10. config/setup-remote-write.sh
|
||||
|
||||
**作用**:配置远程写入(已集成到部署脚本中)
|
||||
|
||||
---
|
||||
|
||||
### 11. config/test-connection.sh
|
||||
|
||||
**作用**:测试边缘节点与中央服务器的连接
|
||||
|
||||
**功能**:
|
||||
- 测试网络连通性
|
||||
- 测试 VictoriaMetrics 写入接口
|
||||
- 验证配置是否正确
|
||||
|
||||
---
|
||||
|
||||
## 配置文件关系图
|
||||
|
||||
```
|
||||
.env (环境变量)
|
||||
│
|
||||
▼
|
||||
prometheus-edge/prometheus.yml ──> 使用环境变量
|
||||
│
|
||||
├─> config/onvif-targets.json ──> ONVIF Exporter
|
||||
└─> config/ping-targets.json ────> Blackbox Exporter
|
||||
│
|
||||
└─> 从 targets.csv 生成
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 数据流向
|
||||
|
||||
```
|
||||
监控目标
|
||||
│
|
||||
├─> ONVIF 设备 ──> ONVIF Exporter ──┐
|
||||
│ │
|
||||
├─> 网络设备 ──> Blackbox Exporter ──┤
|
||||
│ │
|
||||
└─> 边缘节点自身 ──────────────────────┤
|
||||
│
|
||||
▼
|
||||
Prometheus Edge
|
||||
│
|
||||
│ remote_write
|
||||
▼
|
||||
VictoriaMetrics (中央服务器)
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 配置文件修改指南
|
||||
|
||||
### 修改监控目标
|
||||
|
||||
1. 编辑 `config/targets.csv`
|
||||
2. 运行 `cd config && ./update-configs.sh`
|
||||
3. 等待 5 分钟自动重载,或重启容器
|
||||
|
||||
### 修改中央服务器地址
|
||||
|
||||
1. 编辑 `.env` 文件
|
||||
2. 重启容器:`docker compose restart prometheus-edge`
|
||||
|
||||
### 修改 Prometheus 配置
|
||||
|
||||
1. 编辑 `prometheus-edge/prometheus.yml`
|
||||
2. 重启容器:`docker compose restart prometheus-edge`
|
||||
|
||||
---
|
||||
|
||||
## 重要提示
|
||||
|
||||
1. **数据保留**:边缘节点只保留 1 小时数据,长期数据存储在中央服务器
|
||||
2. **资源限制**:配置了内存和 CPU 限制,适合边缘设备
|
||||
3. **端口冲突**:Prometheus Edge 使用 9092(避免与中央服务器冲突)
|
||||
4. **网络连通性**:确保可以访问中央服务器的 8428 端口
|
||||
5. **配置更新**:修改 CSV 后需要运行 `update-configs.sh` 生成 JSON
|
||||
|
||||
---
|
||||
|
||||
## 相关文档
|
||||
|
||||
- **边缘节点配置**:`doc/EDGE_NODE_SETUP.md`
|
||||
- **监控目标说明**:`doc/MONITORING_TARGETS.md`
|
||||
- **统一配置指南**:`doc/TARGETS_CSV_GUIDE.md`
|
||||
- **系统架构**:`doc/ARCHITECTURE.md`
|
||||
183
doc/EDGE_NODE_SETUP.md
Normal file
183
doc/EDGE_NODE_SETUP.md
Normal file
@@ -0,0 +1,183 @@
|
||||
# 边缘节点配置指南
|
||||
|
||||
## 在本机模拟边缘节点
|
||||
|
||||
### 前置条件
|
||||
|
||||
1. ✅ Docker 和 Docker Compose 已安装
|
||||
2. ✅ 中央服务器已部署并运行
|
||||
3. ✅ 网络连通性正常
|
||||
|
||||
### 配置步骤
|
||||
|
||||
#### 1. 配置中央服务器地址
|
||||
|
||||
编辑 `.env` 文件(如果不存在,从 `env.example` 复制):
|
||||
|
||||
```bash
|
||||
cd edge-agent
|
||||
cp env.example .env
|
||||
nano .env
|
||||
```
|
||||
|
||||
**重要配置**:
|
||||
```bash
|
||||
# 如果中央服务器在本机,使用本机IP或localhost
|
||||
CENTRAL_SERVER_HOST=192.168.2.21 # 或使用 localhost
|
||||
CENTRAL_SERVER_PORT=8428
|
||||
|
||||
# 边缘节点标识(每个节点唯一)
|
||||
EDGE_NODE_ID=workernode_1
|
||||
```
|
||||
|
||||
#### 2. 配置监控目标(统一配置)
|
||||
|
||||
**推荐使用统一的 `targets.csv` 配置文件**,可以在一个文件中同时配置 ONVIF 设备和网络 Ping 目标。
|
||||
|
||||
编辑 `config/targets.csv`:
|
||||
```csv
|
||||
type,ip,device,group,network,device_type,model,location,username,password,onvif_port
|
||||
ping,8.8.8.8,google_dns,external,external,,,,,,
|
||||
ping,1.1.1.1,cloudflare_dns,external,external,,,,,,
|
||||
# ONVIF 设备示例(取消注释并填写实际信息)
|
||||
# onvif,192.168.1.100,,,front_door,camera,HIKVISION_DS-2CD2342WD-I,front_door,admin,password1,80
|
||||
```
|
||||
|
||||
**说明**:
|
||||
- `type` 字段:`ping` 表示网络探测,`onvif` 表示 ONVIF 设备
|
||||
- 如果没有 ONVIF 设备,可以只配置 `ping` 类型的目标
|
||||
- 详细配置说明请参考:`doc/TARGETS_CSV_GUIDE.md`
|
||||
|
||||
**旧格式兼容**:
|
||||
如果使用旧的 `devices.csv` 和 `ping-targets.csv` 格式,脚本会自动识别并转换。
|
||||
|
||||
#### 3. 生成配置文件
|
||||
|
||||
```bash
|
||||
cd config
|
||||
chmod +x *.sh
|
||||
./update-configs.sh
|
||||
cd ..
|
||||
```
|
||||
|
||||
这会生成:
|
||||
- `config/onvif-targets.json` - ONVIF 设备配置
|
||||
- `config/ping-targets.json` - 网络探测配置
|
||||
|
||||
#### 4. 修改端口映射(避免冲突)
|
||||
|
||||
**重要**:本机已有中央服务器运行,需要修改端口避免冲突。
|
||||
|
||||
编辑 `docker-compose.yml`,修改 Prometheus Edge 的端口:
|
||||
|
||||
**解决**:修改 `docker-compose.yml` 中的端口映射为 9092
|
||||
|
||||
#### 2. 无法连接到中央服务器
|
||||
|
||||
**问题**:`CENTRAL_SERVER_HOST` 配置错误
|
||||
|
||||
**解决**:
|
||||
- 如果中央服务器在本机:使用 `localhost` 或本机 IP `192.168.2.21`
|
||||
- 如果中央服务器在其他机器:使用正确的 IP 地址
|
||||
- 确保防火墙开放 8428 端口
|
||||
|
||||
#### 3. ONVIF Exporter 报错
|
||||
|
||||
**问题**:没有真实的 ONVIF 设备或设备不可访问
|
||||
|
||||
**解决**:
|
||||
- 暂时可以忽略(不影响网络探测功能)
|
||||
- 或配置正确的设备信息
|
||||
|
||||
#### 4. 数据未推送到中央服务器
|
||||
|
||||
**检查**:
|
||||
1. 查看边缘节点日志:`docker compose logs prometheus-edge`
|
||||
2. 检查网络连通性:`curl http://192.168.2.21:8428/api/v1/write`
|
||||
3. 检查中央服务器 VictoriaMetrics 是否运行:`docker ps | grep victoria`
|
||||
|
||||
### 测试配置
|
||||
|
||||
#### 最小化测试配置
|
||||
|
||||
如果只想测试数据推送功能,可以使用最小配置:
|
||||
|
||||
1. **清空 ONVIF 设备**(`config/devices.csv` 留空)
|
||||
2. **只配置网络探测**(`config/ping-targets.csv` 添加几个公共 DNS)
|
||||
3. **部署并验证数据推送**
|
||||
|
||||
### 下一步
|
||||
|
||||
1. ✅ 边缘节点部署完成
|
||||
2. ✅ 数据成功推送到中央服务器
|
||||
3. 📊 在 Grafana 中创建仪表板查看数据
|
||||
4. 🔔 配置告警规则(告警规则会自动激活)
|
||||
|
||||
```yaml
|
||||
ports:
|
||||
- "9092:9090" # 改为 9092,避免与中央服务器冲突
|
||||
```
|
||||
|
||||
#### 5. 修改 Prometheus Edge 配置
|
||||
|
||||
编辑 `prometheus-edge/prometheus.yml`:
|
||||
|
||||
```yaml
|
||||
global:
|
||||
scrape_interval: 120s
|
||||
evaluation_interval: 120s
|
||||
external_labels:
|
||||
region: workernode_1 # 边缘节点标识
|
||||
user_group: "user-group-a" # 可选:添加用户组标签
|
||||
```
|
||||
|
||||
#### 6. 部署边缘节点
|
||||
|
||||
```bash
|
||||
bash deploy.sh
|
||||
```
|
||||
|
||||
### 验证配置
|
||||
|
||||
#### 1. 检查服务状态
|
||||
|
||||
```bash
|
||||
docker compose ps
|
||||
```
|
||||
|
||||
应该看到:
|
||||
- `prometheus-edge` - 运行中
|
||||
- `onvif-exporter` - 运行中(如果没有设备可能报错,但不影响)
|
||||
- `blackbox-exporter` - 运行中
|
||||
|
||||
#### 2. 检查数据推送
|
||||
|
||||
访问边缘节点 Prometheus:
|
||||
```bash
|
||||
http://localhost:9092
|
||||
```
|
||||
|
||||
查询指标:
|
||||
```promql
|
||||
up{job="network-ping"}
|
||||
```
|
||||
|
||||
#### 3. 检查中央服务器接收数据
|
||||
|
||||
访问中央服务器 Grafana:
|
||||
```bash
|
||||
http://localhost:3000
|
||||
```
|
||||
|
||||
在 Prometheus 数据源中查询:
|
||||
```promql
|
||||
up{region="workernode_1"}
|
||||
```
|
||||
|
||||
如果能看到数据,说明边缘节点已成功推送数据到中央服务器!
|
||||
|
||||
### 常见问题
|
||||
|
||||
#### 1. 端口冲突
|
||||
|
||||
**问题**:边缘节点 Prometheus 端口 9090 与中央服务器冲突
|
||||
246
doc/MONITORING_TARGETS.md
Normal file
246
doc/MONITORING_TARGETS.md
Normal file
@@ -0,0 +1,246 @@
|
||||
# 边缘节点监控目标说明
|
||||
|
||||
## 监控目标类型
|
||||
|
||||
边缘节点主要监控三类目标:
|
||||
|
||||
### 1. ONVIF 设备 (通过 ONVIF Exporter)
|
||||
|
||||
**监控对象**:
|
||||
- 📹 **摄像头 (Camera)** - IP 摄像头
|
||||
- 📼 **NVR (Network Video Recorder)** - 网络视频录像机
|
||||
- 其他支持 ONVIF 协议的设备
|
||||
|
||||
**监控指标**:
|
||||
- `up{job="onvif-devices"}` - 设备在线状态
|
||||
- `onvif_device_temperature` - 设备温度
|
||||
- `onvif_storage_usage_percent` - 存储使用率
|
||||
- 其他 ONVIF 设备指标
|
||||
|
||||
**配置位置**:
|
||||
- CSV 配置:`config/devices.csv`
|
||||
- JSON 配置:`config/onvif-targets.json`
|
||||
|
||||
**配置示例**:
|
||||
```csv
|
||||
ip,device_type,model,location,username,password,onvif_port
|
||||
192.168.1.100,camera,HIKVISION_DS-2CD2342WD-I,front_door,admin,password1,80
|
||||
192.168.1.50,nvr,HIKVISION_DS-7608NI-I2,server_rack,admin,password4,80
|
||||
```
|
||||
|
||||
**告警规则**:
|
||||
- `ONVIFDeviceDown` - 设备离线告警
|
||||
- `ONVIFDeviceHighTemperature` - 温度过高告警
|
||||
- `ONVIFDeviceLowStorage` - 存储空间不足告警
|
||||
|
||||
---
|
||||
|
||||
### 2. 网络设备 (通过 Blackbox Exporter)
|
||||
|
||||
**监控对象**:
|
||||
- 🌐 **路由器** - 网络网关设备
|
||||
- 🔌 **交换机** - 网络交换设备
|
||||
- 💻 **服务器** - 各种服务器设备
|
||||
- 🌍 **外部服务** - DNS、网站等外部服务
|
||||
- 📡 **网络设备** - 任何可通过 ICMP ping 的设备
|
||||
|
||||
**监控方式**:
|
||||
- **ICMP Ping** - 网络连通性探测
|
||||
- **TCP 连接** - TCP 端口连通性
|
||||
- **HTTP 探测** - HTTP 服务可用性
|
||||
|
||||
**监控指标**:
|
||||
- `probe_success{job="network-ping"}` - Ping 成功状态 (0/1)
|
||||
- `probe_duration_seconds{job="network-ping"}` - Ping 延迟时间
|
||||
- `probe_http_status_code` - HTTP 状态码
|
||||
- `probe_tcp_connect_success` - TCP 连接成功状态
|
||||
|
||||
**配置位置**:
|
||||
- CSV 配置:`config/ping-targets.csv`
|
||||
- JSON 配置:`config/ping-targets.json`
|
||||
|
||||
**配置示例**:
|
||||
```csv
|
||||
ip,device,group,network
|
||||
192.168.1.1,main_router,network,internal
|
||||
8.8.8.8,google_dns,external,external
|
||||
1.1.1.1,cloudflare_dns,external,external
|
||||
```
|
||||
|
||||
**告警规则**:
|
||||
- `NetworkDeviceDown` - 网络设备离线告警
|
||||
- `HighNetworkLatency` - 网络延迟过高告警
|
||||
|
||||
---
|
||||
|
||||
### 3. 边缘节点自身 (Prometheus Edge)
|
||||
|
||||
**监控对象**:
|
||||
- 边缘 Prometheus 服务自身
|
||||
|
||||
**监控指标**:
|
||||
- `up{job="prometheus-edge"}` - Prometheus 服务状态
|
||||
- `prometheus_tsdb_*` - 时序数据库指标
|
||||
- `prometheus_config_*` - 配置相关指标
|
||||
|
||||
**配置位置**:
|
||||
- `prometheus-edge/prometheus.yml` (自动配置)
|
||||
|
||||
---
|
||||
|
||||
## 监控目标汇总表
|
||||
|
||||
| 监控类型 | Job名称 | Exporter | 配置文件 | 监控间隔 | 告警规则 |
|
||||
|---------|---------|----------|----------|----------|----------|
|
||||
| ONVIF设备 | `onvif-devices` | ONVIF Exporter | `config/onvif-targets.json` | 120秒 | ONVIFDeviceDown<br>ONVIFDeviceHighTemperature<br>ONVIFDeviceLowStorage |
|
||||
| 网络设备 | `network-ping` | Blackbox Exporter | `config/ping-targets.json` | 300秒 | NetworkDeviceDown<br>HighNetworkLatency |
|
||||
| 边缘节点自身 | `prometheus-edge` | Prometheus自身 | 自动配置 | 60秒 | - |
|
||||
|
||||
---
|
||||
|
||||
## 典型监控场景
|
||||
|
||||
### 场景 1:家庭/办公室监控
|
||||
|
||||
**ONVIF 设备**:
|
||||
- 前门摄像头
|
||||
- 后院摄像头
|
||||
- 客厅摄像头
|
||||
- NVR 录像机
|
||||
|
||||
**网络设备**:
|
||||
- 主路由器 (192.168.1.1)
|
||||
- 交换机
|
||||
- 内部服务器
|
||||
|
||||
### 场景 2:企业监控
|
||||
|
||||
**ONVIF 设备**:
|
||||
- 多个区域的摄像头
|
||||
- 多个 NVR 设备
|
||||
- 不同品牌的摄像头
|
||||
|
||||
**网络设备**:
|
||||
- 核心路由器
|
||||
- 汇聚交换机
|
||||
- 接入交换机
|
||||
- 关键服务器
|
||||
- 外部 DNS 服务
|
||||
|
||||
### 场景 3:最小化测试
|
||||
|
||||
**ONVIF 设备**:
|
||||
- 无(留空用于测试)
|
||||
|
||||
**网络设备**:
|
||||
- 公共 DNS (8.8.8.8, 1.1.1.1)
|
||||
- 本地路由器(如果可访问)
|
||||
|
||||
---
|
||||
|
||||
## 配置建议
|
||||
|
||||
### ONVIF 设备配置
|
||||
|
||||
1. **设备信息**:
|
||||
- IP 地址
|
||||
- 设备类型 (camera/nvr)
|
||||
- 型号
|
||||
- 位置标签
|
||||
- 用户名和密码
|
||||
- ONVIF 端口(通常 80 或 8080)
|
||||
|
||||
2. **安全建议**:
|
||||
- 使用强密码
|
||||
- 定期更换密码
|
||||
- 限制网络访问
|
||||
|
||||
### 网络设备配置
|
||||
|
||||
1. **内部设备**:
|
||||
- 路由器、交换机等关键网络设备
|
||||
- 重要服务器
|
||||
- 网络打印机等
|
||||
|
||||
2. **外部服务**:
|
||||
- 公共 DNS (8.8.8.8, 1.1.1.1)
|
||||
- 关键外部服务
|
||||
- 用于测试网络连通性
|
||||
|
||||
3. **标签使用**:
|
||||
- `group` - 设备分组
|
||||
- `network` - 网络类型 (internal/external)
|
||||
- `device` - 设备名称
|
||||
|
||||
---
|
||||
|
||||
## 数据流向
|
||||
|
||||
```
|
||||
监控目标
|
||||
│
|
||||
├─ ONVIF 设备 ──> ONVIF Exporter ──┐
|
||||
│ │
|
||||
├─ 网络设备 ──> Blackbox Exporter ──┤
|
||||
│ │
|
||||
└─ 边缘节点自身 ──────────────────────┤
|
||||
│
|
||||
▼
|
||||
Prometheus Edge
|
||||
│
|
||||
│ remote_write
|
||||
▼
|
||||
VictoriaMetrics (中央服务器)
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 验证监控目标
|
||||
|
||||
### 1. 检查 ONVIF 设备
|
||||
|
||||
在边缘节点 Prometheus 查询:
|
||||
```promql
|
||||
up{job="onvif-devices"}
|
||||
```
|
||||
|
||||
### 2. 检查网络设备
|
||||
|
||||
在边缘节点 Prometheus 查询:
|
||||
```promql
|
||||
probe_success{job="network-ping"}
|
||||
```
|
||||
|
||||
### 3. 检查数据推送
|
||||
|
||||
在中央服务器 Grafana 查询:
|
||||
```promql
|
||||
up{region="workernode_1"}
|
||||
probe_success{region="workernode_1"}
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 常见问题
|
||||
|
||||
### Q: 没有 ONVIF 设备怎么办?
|
||||
|
||||
A: 可以留空 ONVIF 设备配置,只使用网络探测功能进行测试。
|
||||
|
||||
### Q: 如何添加新的监控目标?
|
||||
|
||||
A:
|
||||
1. 编辑对应的 CSV 文件 (`devices.csv` 或 `ping-targets.csv`)
|
||||
2. 运行 `cd config && ./update-configs.sh`
|
||||
3. 等待 5 分钟自动重载,或重启 `prometheus-edge` 容器
|
||||
|
||||
### Q: 监控目标太多会影响性能吗?
|
||||
|
||||
A:
|
||||
- ONVIF 设备:每个设备约 1-2 秒查询时间
|
||||
- 网络 Ping:每个目标约 0.1-0.5 秒
|
||||
- 建议:单节点不超过 100 个目标
|
||||
|
||||
### Q: 如何监控 HTTPS 服务?
|
||||
|
||||
A: 修改 `blackbox/config.yml`,添加 HTTPS 探测模块,然后在 `ping-targets.json` 中配置。
|
||||
81
doc/ONVIF_ALTERNATIVES.md
Normal file
81
doc/ONVIF_ALTERNATIVES.md
Normal file
@@ -0,0 +1,81 @@
|
||||
# Prometheus 监控 ONVIF/摄像头的替代方案
|
||||
|
||||
当前项目原计划使用 **ghcr.io/atiek/onvif-exporter**,该镜像在公共 registry **不存在**,且未见可直接替代的“ONVIF → Prometheus /metrics”公开镜像。以下为可行替代思路。
|
||||
|
||||
---
|
||||
|
||||
## 方案概览
|
||||
|
||||
| 方案 | 适用场景 | 说明 |
|
||||
|------|----------|------|
|
||||
| **SNMP Exporter** | 摄像头/设备支持 SNMP | 用官方 `prom/snmp_exporter`,按设备 MIB 配置 OID,无 ONVIF 协议 |
|
||||
| **Frigate** | 已用或可部署 Frigate NVR | Frigate 暴露 `/api/metrics`,Prometheus 直接抓取或通过 frigate-exporter |
|
||||
| **UniFi Protect Exporter** | UniFi 摄像头/Protect | 使用专有 exporter,非 ONVIF 通用方案 |
|
||||
| **ONVIF 自建** | 必须用 ONVIF 协议 | **本项目已提供**:见 **edge-agent/onvif-exporter/**,Go + use-go/onvif,读取 `onvif-targets.json`,GetDeviceInformation 探测,暴露 `onvif_device_up`、`onvif_probe_duration_seconds`。`docker compose --profile onvif up -d --build` 即可。 |
|
||||
| **仅 Ping/HTTP 探测** | 只关心在线与可达性 | 用 Blackbox Exporter 对摄像头 IP 做 ICMP/HTTP 探测,不解析 ONVIF |
|
||||
|
||||
---
|
||||
|
||||
## 1. SNMP Exporter(摄像头支持 SNMP 时推荐)
|
||||
|
||||
很多 IP 摄像头和 NVR 支持 SNMP,可用 Prometheus 官方 **snmp_exporter** 统一监控。
|
||||
|
||||
- **镜像**:`prom/snmp-exporter:latest`(Docker Hub 公开)
|
||||
- **原理**:snmp_exporter 按配置的 OID 向设备发 SNMP 请求,将结果转为 Prometheus 指标。
|
||||
- **步骤概要**:
|
||||
1. 确认摄像头/NVR 开启 SNMP(v2c 或 v3),并拿到 community 或 v3 认证信息。
|
||||
2. 在边缘节点部署 `prom/snmp-exporter`,配置 `snmp.yml`(可参考 [snmp_exporter 官方](https://github.com/prometheus/snmp_exporter) 的 generator 与现成 MIB)。
|
||||
3. 在边缘 Prometheus 的 `scrape_configs` 中增加对 snmp_exporter 的抓取(按 target 区分设备)。
|
||||
- **优点**:镜像现成、方案成熟,可与现有边缘 Prometheus + remote_write 无缝配合。
|
||||
- **缺点**:不是 ONVIF,依赖设备支持 SNMP。
|
||||
|
||||
---
|
||||
|
||||
## 2. Frigate NVR 暴露的 Prometheus 指标
|
||||
|
||||
若已使用或可部署 [Frigate](https://frigate.video/) 作为 NVR,可直接用其内置 Prometheus 接口。
|
||||
|
||||
- **端点**:Frigate 提供 `http://<frigate-host>:5000/api/metrics`(或你配置的端口)。
|
||||
- **在边缘 Prometheus 中增加**:
|
||||
```yaml
|
||||
- job_name: 'frigate'
|
||||
metrics_path: '/api/metrics'
|
||||
static_configs:
|
||||
- targets: ['frigate-host:5000'] # 或容器名/服务名
|
||||
scrape_interval: 15s
|
||||
```
|
||||
- **指标内容**:摄像头 FPS、检测状态、事件计数、系统/GPU/存储等(见 [Frigate 文档](https://docs.frigate.video/configuration/metrics/))。
|
||||
- **优点**:无需额外 ONVIF exporter,Frigate 已聚合摄像头与检测指标。
|
||||
- **缺点**:依赖 Frigate 部署,非“纯 ONVIF”方案。
|
||||
|
||||
---
|
||||
|
||||
## 3. 仅用 Blackbox 做在线与可达性监控
|
||||
|
||||
不解析 ONVIF,只监控“摄像头/NVR 是否在线、端口是否可达”。
|
||||
|
||||
- **已有组件**:边缘节点已包含 **Blackbox Exporter**(如 `prom/blackbox-exporter`)。
|
||||
- **做法**:在 `config/ping-targets.json`(或等价目标列表)中加入摄像头/NVR 的 IP,用 ICMP 或 TCP/HTTP 探测(例如对 80/8000 等端口做 `tcp_connect` 或 `http_2xx`)。
|
||||
- **优点**:无需任何 ONVIF 镜像,部署即可用,与现有 Ping 监控一致。
|
||||
- **缺点**:无设备级 ONVIF 状态、无摄像头特有指标。
|
||||
|
||||
---
|
||||
|
||||
## 4. ONVIF 自建 Exporter(必须走 ONVIF 时)
|
||||
|
||||
**本项目已在 edge-agent/onvif-exporter/ 提供自建容器**,无需再找第三方镜像。
|
||||
|
||||
- **实现**:Go + [use-go/onvif](https://github.com/use-go/onvif),读取 `config/onvif-targets.json`(与 `targets.csv` 中 onvif 行一致),轮询 ONVIF `GetDeviceInformation`,暴露 Prometheus 指标 `onvif_device_up`、`onvif_probe_duration_seconds`。
|
||||
- **启用**:在边缘节点执行 `docker compose --profile onvif up -d --build`,会构建并启动 ONVIF exporter,无需设置 `ONVIF_EXPORTER_IMAGE`。
|
||||
- **配置**:在 `config/targets.csv` 中增加 onvif 行(ip、device_type、model、location、username、password、onvif_port),运行 `config/update-configs.sh` 生成 `onvif-targets.json`。
|
||||
- 若需自行修改或扩展,见 **edge-agent/onvif-exporter/README.md**。
|
||||
|
||||
---
|
||||
|
||||
## 在本项目中的建议
|
||||
|
||||
- **边缘默认部署**:不依赖不存在的 ONVIF 镜像;默认只跑 **prometheus-edge** + **blackbox-exporter**(Ping/探测),可选用 **snmp-exporter** 或 Frigate 抓取。
|
||||
- **若需要 ONVIF**:使用本项目自建的 **edge-agent/onvif-exporter**,执行 `docker compose --profile onvif up -d --build` 即可构建并启动;无需再设 `ONVIF_EXPORTER_IMAGE`。
|
||||
- **摄像头支持 SNMP 时**:优先考虑 **SNMP Exporter** 作为“Prometheus 监控摄像头”的替代方案,再根据需要补充 Frigate 或 Blackbox。
|
||||
|
||||
具体边缘配置与 compose 变更见 **EDGE_AGENT_CONFIG.md**、**EDGE_NODE_SETUP.md** 及 `edge-agent/docker-compose.yml`。
|
||||
140
doc/PROJECT_DEFECTS.md
Normal file
140
doc/PROJECT_DEFECTS.md
Normal file
@@ -0,0 +1,140 @@
|
||||
# 项目缺陷分析
|
||||
|
||||
基于 README、central-server 及相关文档的审查结果。
|
||||
|
||||
---
|
||||
|
||||
## 一、严重缺陷
|
||||
|
||||
### 1. Grafana 无法展示边缘节点数据(数据源缺失)【已修复】
|
||||
|
||||
**现象**:边缘节点通过 remote_write 将指标推送到 **VictoriaMetrics**,此前 Grafana 仅配置了 **Prometheus** 数据源。
|
||||
|
||||
**数据流与配置顺序**:
|
||||
- **边缘主动上报**:边缘节点上的 Prometheus/Agent 配置了 `remote_write` 指向中央服务器的 VictoriaMetrics(`http://中央IP:8428/api/v1/write`),会主动推送指标到中央。
|
||||
- **必须先配置边缘**:只有在边缘节点里配置好“中央服务器地址 + 8428 端口”并启动后,数据才会出现在 VictoriaMetrics 中;中央仅提供接收端,不会去拉边缘。
|
||||
- **Grafana 看到边缘数据**:中央已增加 **VictoriaMetrics** 数据源(`grafana/provisioning/datasources/victoriametrics.yml`)后,在 Grafana 中选用 “VictoriaMetrics” 数据源即可查询这些上报上来的边缘数据;无需再配“边缘数据”本身,只需边缘按文档配置上报。
|
||||
|
||||
**已做修改**:
|
||||
- 在 `grafana/provisioning/datasources/` 中新增 **victoriametrics.yml**,数据源 URL 为 `http://victoria-metrics:8428`。
|
||||
- 边缘数据可见的前提:边缘已配置并运行,且 remote_write 指向本中央 VM(参见 `doc/EDGE_NODE_SETUP.md`、`doc/EDGE_AGENT_CONFIG.md`)。
|
||||
|
||||
---
|
||||
|
||||
### 2. docker-compose 网络名未设置默认值导致部署失败
|
||||
|
||||
**现象**:`docker-compose.yml` 中默认网络名为 `${NETWORK_NAME}`,未提供默认值。
|
||||
|
||||
```yaml
|
||||
networks:
|
||||
default:
|
||||
name: ${NETWORK_NAME}
|
||||
```
|
||||
|
||||
**依据**:`deploy.sh` 只 export 了部分变量,**未 export `NETWORK_NAME`**。若用户“使用默认配置”且没有 `.env`(脚本提示“未找到 .env 和 env.example”时),`NETWORK_NAME` 为空,Compose 会使用空字符串作为网络名,可能导致创建失败或行为异常。
|
||||
|
||||
**建议**:
|
||||
- 在 `deploy.sh` 中为 `NETWORK_NAME` 设置默认值并 export,例如:
|
||||
`NETWORK_NAME=${NETWORK_NAME:-central_default}` 或与 Traefik 一致时 `NETWORK_NAME=${NETWORK_NAME:-traefik}`
|
||||
- 或在 `docker-compose.yml` 中写为:`name: ${NETWORK_NAME:-central_default}`
|
||||
|
||||
---
|
||||
|
||||
### 3. VictoriaMetrics 容器内监听端口与映射不一致
|
||||
|
||||
**现象**:容器内通过环境变量改变监听端口,与端口映射不一致。
|
||||
|
||||
**依据**(`docker-compose.yml`):
|
||||
|
||||
```yaml
|
||||
ports:
|
||||
- "${VICTORIAMETRICS_PORT:-8428}:8428"
|
||||
command:
|
||||
- "--httpListenAddr=:${VICTORIAMETRICS_PORT:-8428}"
|
||||
```
|
||||
|
||||
- 端口映射为「主机 `${VICTORIAMETRICS_PORT}` → 容器 **8428**」
|
||||
- 若用户设置 `VICTORIAMETRICS_PORT=8430`,容器会监听 **8430**,而映射期望容器监听 **8428**,导致主机 8430 无法正确访问服务。
|
||||
|
||||
**建议**:容器内应固定监听 8428,仅用环境变量控制主机端口。例如:
|
||||
|
||||
```yaml
|
||||
command:
|
||||
- "--httpListenAddr=:8428"
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 二、中等问题
|
||||
|
||||
### 4. Alertmanager Webhook 在容器内不可达
|
||||
|
||||
**现象**:`alertmanager/alertmanager.yml` 中 webhook 为 `http://127.0.0.1:5001/`。
|
||||
|
||||
在容器内 `127.0.0.1` 指向 Alertmanager 自身,无法访问宿主机上的 webhook 服务,告警无法送达。
|
||||
|
||||
**建议**:
|
||||
- Linux 下可使用 `http://host.docker.internal:5001/`(若 Docker 支持)
|
||||
- 或使用宿主机在 Docker 网桥上的 IP,并在文档中说明需替换为实际地址
|
||||
|
||||
---
|
||||
|
||||
### 5. 默认启用 Traefik 且为示例域名,不利于“快速开始”
|
||||
|
||||
**现象**:`env.example` 中 `TRAEFIK_ENABLED=true`,且域名为 `grafana.example.com` 等。README 的“快速开始”是 `http://localhost:3000`。
|
||||
|
||||
**结果**:新用户若直接 `cp env.example .env` 并部署,会默认走 Traefik + 示例域名,本地浏览器无法用 localhost 访问,与文档体验不一致。
|
||||
|
||||
**建议**:
|
||||
- `env.example` 中默认设为 `TRAEFIK_ENABLED=false`,便于本地快速开始
|
||||
- 或在 README/CONFIGURATION 中明确写:本地试用请将 `TRAEFIK_ENABLED=false`,并说明 Traefik 为可选
|
||||
|
||||
---
|
||||
|
||||
### 6. 部署脚本未导出 NETWORK_NAME
|
||||
|
||||
**现象**:`deploy.sh` 中通过 `set -a; source .env` 可导出 .env 中的变量,但若没有 .env,或 .env 中未写 `NETWORK_NAME`,则 Compose 收到的 `NETWORK_NAME` 可能为空。
|
||||
|
||||
**建议**:在 deploy.sh 的“设置默认值”或 export 段落中显式设置并 export:
|
||||
|
||||
```bash
|
||||
NETWORK_NAME=${NETWORK_NAME:-traefik}
|
||||
export NETWORK_NAME
|
||||
```
|
||||
|
||||
与第 2 点一起修复,可避免无 .env 或漏配时的部署问题。
|
||||
|
||||
---
|
||||
|
||||
## 三、文档/一致性问题
|
||||
|
||||
### 7. 架构文档与实现不一致
|
||||
|
||||
**现象**:`doc/ARCHITECTURE.md` 描述“Prometheus 从 VictoriaMetrics 读取数据”,但当前 `prometheus.yml` 仅有 **remote_write** 到 VictoriaMetrics,没有 **remote_read**。
|
||||
|
||||
**建议**:修改文档为“Prometheus 将本地抓取数据 remote_write 到 VictoriaMetrics;边缘数据仅存在于 VictoriaMetrics”,并说明 Grafana 如需查边缘数据应使用 VictoriaMetrics 数据源(与第 1 点修复一致)。
|
||||
|
||||
---
|
||||
|
||||
### 8. 示例密码与安全建议不一致
|
||||
|
||||
**现象**:README 和配置中默认管理员密码为 `admin123`,CONFIGURATION.md 建议“首次部署后请立即修改”“生产环境必须修改”。
|
||||
|
||||
**建议**:在 README 快速开始处增加一句:“默认密码仅用于首次登录,生产环境请立即修改”,并在部署成功输出中再次提醒。
|
||||
|
||||
---
|
||||
|
||||
## 四、小结
|
||||
|
||||
| 优先级 | 缺陷 | 建议 |
|
||||
|--------|------|------|
|
||||
| ~~高~~ | ~~Grafana 缺少 VictoriaMetrics 数据源~~ | ✅ 已增加 `victoriametrics.yml`;边缘需先配置 remote_write 指向中央 VM |
|
||||
| 高 | Compose 网络名无默认值 | 为 NETWORK_NAME 设默认并 export |
|
||||
| 高 | VictoriaMetrics 容器监听端口与端口映射不一致 | 容器内固定监听 8428 |
|
||||
| 中 | Alertmanager webhook 127.0.0.1 在容器内无效 | 改为 host.docker.internal 或宿主机 IP并文档说明 |
|
||||
| 中 | 默认启用 Traefik + 示例域名 | 默认关闭 Traefik 或文档明确本地试用步骤 |
|
||||
| 中 | deploy 未导出 NETWORK_NAME | 在 deploy.sh 中设置并 export |
|
||||
| 低 | 架构文档与实现不符 | 更新 ARCHITECTURE.md |
|
||||
| 低 | 默认密码与安全建议 | 在 README 和部署输出中强调修改密码 |
|
||||
|
||||
以上为当前发现的主要缺陷与改进建议,优先修复前三条可显著提升部署成功率和“边缘+中央”统一监控的可用性。
|
||||
120
doc/README.md
Normal file
120
doc/README.md
Normal file
@@ -0,0 +1,120 @@
|
||||
# Distributed-Prometheus 文档
|
||||
|
||||
本目录为项目文档入口。**先按部署顺序做完第一步、第二步,再按需查阅其他文档。**
|
||||
|
||||
---
|
||||
|
||||
## 部署顺序(必读)
|
||||
|
||||
整体顺序:**先中央,后边缘**。边缘向中央主动上报数据,中央必须先就绪。
|
||||
|
||||
| 步骤 | 部署什么 | 做什么 | 验证 |
|
||||
|------|----------|--------|------|
|
||||
| **第一步** | 中央服务器 | 部署 Prometheus、Grafana、VictoriaMetrics、Alertmanager | Grafana http://localhost:3000、Prometheus http://localhost:9091 |
|
||||
| **第二步** | 边缘节点(可选,可多台) | 配置中央地址与监控目标,部署边缘 Prometheus + Exporter | 边缘 UI http://localhost:9092,Grafana 选 VictoriaMetrics 数据源可见边缘数据 |
|
||||
| **第三步** | 多用户 / 告警(可选) | 配置 Grafana 组织与用户、Alertmanager 通知 | 按 [USER_MANAGEMENT.md](USER_MANAGEMENT.md)、[ALERTMANAGER_CONFIG.md](ALERTMANAGER_CONFIG.md) 验证 |
|
||||
|
||||
---
|
||||
|
||||
### 第一步:部署中央服务器
|
||||
|
||||
**必须先做**。中央提供 VictoriaMetrics(接收边缘数据)、Prometheus、Grafana、Alertmanager。
|
||||
|
||||
```bash
|
||||
cd central-server
|
||||
cp env.example .env # 可选:按需改端口、Traefik、网络等
|
||||
bash deploy.sh
|
||||
```
|
||||
|
||||
- **前置**:已安装 Docker、Docker Compose;端口 3000、9091、8428、9093 未被占用。
|
||||
- **验证**:访问 http://localhost:3000(Grafana,admin/admin123)、http://localhost:9091(Prometheus)。
|
||||
- **详细**:[DEPLOYMENT_GUIDE.md](DEPLOYMENT_GUIDE.md)、[CENTRAL_SERVER_CONFIG.md](CENTRAL_SERVER_CONFIG.md)、[central-server/CONFIGURATION.md](../central-server/CONFIGURATION.md)。
|
||||
|
||||
---
|
||||
|
||||
### 第二步:部署边缘节点
|
||||
|
||||
**在中央已运行后**进行。边缘将指标推送到中央 VictoriaMetrics(端口 8428)。
|
||||
边缘必选:**remote_write**(prometheus-edge)、**Blackbox** 容器;可选:ONVIF/SNMP 等容器(见 [EDGE_AGENT_CONFIG.md](EDGE_AGENT_CONFIG.md))。
|
||||
|
||||
- **本机同机**(中央与边缘在同一台机器):
|
||||
```bash
|
||||
cd edge-agent
|
||||
bash run-edge-local.sh
|
||||
```
|
||||
脚本会设置中央地址为 `host.docker.internal:8428` 并执行部署。
|
||||
|
||||
- **边缘在另一台机器**:
|
||||
```bash
|
||||
cd edge-agent
|
||||
cp env.example .env
|
||||
# 编辑 .env:CENTRAL_SERVER_HOST=中央服务器IP,CENTRAL_SERVER_PORT=8428
|
||||
cd config && ./update-configs.sh && cd .. # 从 targets.csv 生成 JSON
|
||||
bash deploy.sh
|
||||
```
|
||||
|
||||
- **验证**:边缘 Prometheus UI http://localhost:9092(端口 9092 避免与中央 9091 冲突)。在中央 Grafana 中**选择数据源「VictoriaMetrics」**,查询如 `up{job="network-ping"}` 可见边缘数据;中央自身指标在数据源「Prometheus」。
|
||||
- **摄像头/ONVIF**:默认不拉取 ONVIF 镜像(公共镜像不存在)。监控摄像头可选:**SNMP Exporter**、**Frigate**、**Blackbox 探测** 或自建 ONVIF 镜像,见 **[ONVIF_ALTERNATIVES.md](ONVIF_ALTERNATIVES.md)**。
|
||||
- **监控目标**:编辑 `edge-agent/config/targets.csv`(Ping / ONVIF),详见 [TARGETS_CSV_GUIDE.md](TARGETS_CSV_GUIDE.md)。
|
||||
- **详细**:[EDGE_NODE_SETUP.md](EDGE_NODE_SETUP.md)、[EDGE_AGENT_CONFIG.md](EDGE_AGENT_CONFIG.md)、[DEPLOYMENT_GUIDE.md](DEPLOYMENT_GUIDE.md)。
|
||||
|
||||
---
|
||||
|
||||
### 第三步(可选):多用户与告警
|
||||
|
||||
- **Grafana 多用户**:`cd central-server/grafana && bash setup-users.sh`,然后按 [USER_MANAGEMENT.md](USER_MANAGEMENT.md) 配置组织与数据源。
|
||||
- **告警通知**:编辑 `central-server/alertmanager/alertmanager.yml` 配置接收端;告警规则见 [ALERT_RULES_EXPLANATION.md](ALERT_RULES_EXPLANATION.md)、[ALERTMANAGER_CONFIG.md](ALERTMANAGER_CONFIG.md)。
|
||||
|
||||
---
|
||||
|
||||
## 文档列表(按用途)
|
||||
|
||||
### 架构与数据流
|
||||
|
||||
| 文档 | 说明 |
|
||||
|------|------|
|
||||
| [ARCHITECTURE.md](ARCHITECTURE.md) | 系统架构、容器关系、数据流向、端口与依赖 |
|
||||
|
||||
### 配置说明
|
||||
|
||||
| 文档 | 说明 |
|
||||
|------|------|
|
||||
| [CENTRAL_SERVER_CONFIG.md](CENTRAL_SERVER_CONFIG.md) | 中央服务器配置文件说明 |
|
||||
| [../central-server/CONFIGURATION.md](../central-server/CONFIGURATION.md) | 中央服务器环境变量(.env)说明 |
|
||||
| [EDGE_AGENT_CONFIG.md](EDGE_AGENT_CONFIG.md) | 边缘节点配置文件说明 |
|
||||
| [TARGETS_CSV_GUIDE.md](TARGETS_CSV_GUIDE.md) | 边缘监控目标 targets.csv 格式与示例 |
|
||||
| [MONITORING_TARGETS.md](MONITORING_TARGETS.md) | ONVIF / 网络探测等监控目标说明 |
|
||||
| [ONVIF_ALTERNATIVES.md](ONVIF_ALTERNATIVES.md) | **摄像头/ONVIF 监控替代方案**(SNMP、Frigate、Blackbox、自建) |
|
||||
|
||||
### 用户与告警
|
||||
|
||||
| 文档 | 说明 |
|
||||
|------|------|
|
||||
| [USER_MANAGEMENT.md](USER_MANAGEMENT.md) | Grafana 多用户、组织与数据隔离 |
|
||||
| [ALERT_RULES_EXPLANATION.md](ALERT_RULES_EXPLANATION.md) | 告警规则说明 |
|
||||
| [ALERTMANAGER_CONFIG.md](ALERTMANAGER_CONFIG.md) | Alertmanager 配置与通知渠道 |
|
||||
|
||||
### 部署与运维
|
||||
|
||||
| 文档 | 说明 |
|
||||
|------|------|
|
||||
| [DEPLOYMENT_GUIDE.md](DEPLOYMENT_GUIDE.md) | 完整部署步骤、检查清单、验证与常见问题 |
|
||||
| [EDGE_NODE_SETUP.md](EDGE_NODE_SETUP.md) | 边缘节点配置与验证(含本机同机) |
|
||||
| [TROUBLESHOOTING.md](TROUBLESHOOTING.md) | 故障排查 |
|
||||
| [BEST_PRACTICES.md](BEST_PRACTICES.md) | 最佳实践与生产环境建议 |
|
||||
|
||||
### 参考
|
||||
|
||||
| 文档 | 说明 |
|
||||
|------|------|
|
||||
| [PROJECT_DEFECTS.md](PROJECT_DEFECTS.md) | 项目缺陷与修复建议 |
|
||||
|
||||
---
|
||||
|
||||
## 快速导航
|
||||
|
||||
- **第一次部署**:按上面「部署顺序」先做第一步,再做第二步。
|
||||
- **只改中央配置**:看 [CENTRAL_SERVER_CONFIG.md](CENTRAL_SERVER_CONFIG.md)、[CONFIGURATION.md](../central-server/CONFIGURATION.md)。
|
||||
- **只改边缘 / 监控目标**:看 [EDGE_NODE_SETUP.md](EDGE_NODE_SETUP.md)、[TARGETS_CSV_GUIDE.md](TARGETS_CSV_GUIDE.md)。
|
||||
- **多用户 / 告警**:看 [USER_MANAGEMENT.md](USER_MANAGEMENT.md)、[ALERTMANAGER_CONFIG.md](ALERTMANAGER_CONFIG.md)。
|
||||
- **出问题**:看 [TROUBLESHOOTING.md](TROUBLESHOOTING.md)、[DEPLOYMENT_GUIDE.md](DEPLOYMENT_GUIDE.md)。
|
||||
131
doc/TARGETS_CSV_GUIDE.md
Normal file
131
doc/TARGETS_CSV_GUIDE.md
Normal file
@@ -0,0 +1,131 @@
|
||||
# targets.csv 配置指南
|
||||
|
||||
## 概述
|
||||
|
||||
`targets.csv` 是统一的监控目标配置文件,可以在一个文件中同时配置 ONVIF 设备和网络 Ping 目标。
|
||||
|
||||
## 文件格式
|
||||
|
||||
```csv
|
||||
type,ip,device,group,network,device_type,model,location,username,password,onvif_port
|
||||
```
|
||||
|
||||
### 字段说明
|
||||
|
||||
| 字段 | 说明 | 必需 | 适用类型 |
|
||||
|------|------|------|----------|
|
||||
| `type` | 目标类型:`ping` 或 `onvif` | ✅ | 所有 |
|
||||
| `ip` | IP 地址 | ✅ | 所有 |
|
||||
| `device` | 设备名称 | ❌ | ping |
|
||||
| `group` | 设备分组 | ❌ | ping |
|
||||
| `network` | 网络类型(internal/external) | ❌ | ping |
|
||||
| `device_type` | 设备类型(camera/nvr) | ✅ | onvif |
|
||||
| `model` | 设备型号 | ✅ | onvif |
|
||||
| `location` | 设备位置 | ✅ | onvif |
|
||||
| `username` | 用户名 | ✅ | onvif |
|
||||
| `password` | 密码 | ✅ | onvif |
|
||||
| `onvif_port` | ONVIF 端口(默认80) | ❌ | onvif |
|
||||
|
||||
## 配置示例
|
||||
|
||||
### Ping 目标配置
|
||||
|
||||
```csv
|
||||
type,ip,device,group,network,device_type,model,location,username,password,onvif_port
|
||||
ping,192.168.1.1,main_router,network,internal,,,,,,
|
||||
ping,8.8.8.8,google_dns,external,external,,,,,,
|
||||
ping,1.1.1.1,cloudflare_dns,external,external,,,,,,
|
||||
```
|
||||
|
||||
**说明**:
|
||||
- `type` 设置为 `ping`
|
||||
- 填写 `ip`, `device`, `group`, `network`
|
||||
- ONVIF 相关字段留空
|
||||
|
||||
### ONVIF 设备配置
|
||||
|
||||
```csv
|
||||
type,ip,device,group,network,device_type,model,location,username,password,onvif_port
|
||||
onvif,192.168.1.100,,,front_door,camera,HIKVISION_DS-2CD2342WD-I,front_door,admin,password1,80
|
||||
onvif,192.168.1.101,,,back_yard,camera,DAHUA_IPC-HFW1230S,back_yard,admin,password2,80
|
||||
onvif,192.168.1.50,,,server_rack,nvr,HIKVISION_DS-7608NI-I2,server_rack,admin,password4,80
|
||||
```
|
||||
|
||||
**说明**:
|
||||
- `type` 设置为 `onvif`
|
||||
- 填写 `ip`, `device_type`, `model`, `location`, `username`, `password`
|
||||
- `onvif_port` 默认为 80,如果不是 80 需要填写
|
||||
- Ping 相关字段(device, group, network)可以留空
|
||||
|
||||
### 混合配置示例
|
||||
|
||||
```csv
|
||||
type,ip,device,group,network,device_type,model,location,username,password,onvif_port
|
||||
ping,192.168.1.1,main_router,network,internal,,,,,,
|
||||
ping,8.8.8.8,google_dns,external,external,,,,,,
|
||||
onvif,192.168.1.100,,,front_door,camera,HIKVISION_DS-2CD2342WD-I,front_door,admin,password1,80
|
||||
onvif,192.168.1.101,,,back_yard,camera,DAHUA_IPC-HFW1230S,back_yard,admin,password2,80
|
||||
```
|
||||
|
||||
## 使用注释
|
||||
|
||||
可以在 CSV 文件中使用 `#` 开头的注释行:
|
||||
|
||||
```csv
|
||||
# 这是注释行
|
||||
type,ip,device,group,network,device_type,model,location,username,password,onvif_port
|
||||
ping,8.8.8.8,google_dns,external,external,,,,,,
|
||||
# onvif,192.168.1.100,,,front_door,camera,HIKVISION_DS-2CD2342WD-I,front_door,admin,password1,80
|
||||
```
|
||||
|
||||
## 生成配置文件
|
||||
|
||||
编辑 `targets.csv` 后,运行:
|
||||
|
||||
```bash
|
||||
cd config
|
||||
./update-configs.sh
|
||||
```
|
||||
|
||||
这会生成:
|
||||
- `onvif-targets.json` - ONVIF 设备配置
|
||||
- `ping-targets.json` - Ping 目标配置
|
||||
|
||||
## 向后兼容
|
||||
|
||||
如果存在旧的配置文件:
|
||||
- `devices.csv` - 仍会被识别并转换
|
||||
- `ping-targets.csv` - 仍会被识别并转换
|
||||
|
||||
但建议统一使用 `targets.csv` 进行配置。
|
||||
|
||||
## 注意事项
|
||||
|
||||
1. **字段顺序**:必须按照 CSV 头部定义的顺序填写
|
||||
2. **空字段**:不需要的字段可以留空,但逗号不能省略
|
||||
3. **特殊字符**:如果字段值包含逗号,需要用引号包裹
|
||||
4. **密码安全**:密码以明文存储,请确保文件权限安全
|
||||
|
||||
## 迁移指南
|
||||
|
||||
### 从旧格式迁移
|
||||
|
||||
**旧格式**(`devices.csv` + `ping-targets.csv`):
|
||||
```csv
|
||||
# devices.csv
|
||||
ip,device_type,model,location,username,password,onvif_port
|
||||
192.168.1.100,camera,HIKVISION_DS-2CD2342WD-I,front_door,admin,password1,80
|
||||
|
||||
# ping-targets.csv
|
||||
ip,device,group,network
|
||||
8.8.8.8,google_dns,external,external
|
||||
```
|
||||
|
||||
**新格式**(`targets.csv`):
|
||||
```csv
|
||||
type,ip,device,group,network,device_type,model,location,username,password,onvif_port
|
||||
onvif,192.168.1.100,,,front_door,camera,HIKVISION_DS-2CD2342WD-I,front_door,admin,password1,80
|
||||
ping,8.8.8.8,google_dns,external,external,,,,,,
|
||||
```
|
||||
|
||||
只需将两个文件的内容合并到 `targets.csv`,并添加 `type` 列即可。
|
||||
422
doc/TROUBLESHOOTING.md
Normal file
422
doc/TROUBLESHOOTING.md
Normal file
@@ -0,0 +1,422 @@
|
||||
# 故障排查指南
|
||||
|
||||
## 常见问题及解决方案
|
||||
|
||||
### 1. 边缘节点 ONVIF Exporter 镜像
|
||||
|
||||
#### 问题:需要监控 ONVIF 摄像头,但原镜像 `ghcr.io/atiek/onvif-exporter` 不存在或拉取失败
|
||||
|
||||
**说明**:该镜像在公共 registry **不存在**,且暂无可直接替代的公开 ONVIF→Prometheus 镜像。
|
||||
|
||||
**建议**:采用替代方案,详见 **[ONVIF_ALTERNATIVES.md](ONVIF_ALTERNATIVES.md)**:
|
||||
|
||||
1. **摄像头支持 SNMP**:使用 **prom/snmp-exporter**(Docker Hub 有镜像),按设备 MIB 配置后由边缘 Prometheus 抓取。
|
||||
2. **已用 Frigate NVR**:直接抓 Frigate 的 `http://<frigate>:5000/api/metrics`。
|
||||
3. **仅需在线/可达性**:用现有 **Blackbox Exporter** 对摄像头 IP 做 Ping 或 HTTP/TCP 探测。
|
||||
4. **必须用 ONVIF**:自建 exporter 镜像(如基于 Go 的 gonvif/onvif 库),在 `.env` 中设置 `ONVIF_EXPORTER_IMAGE=你的镜像:tag`,并执行 `docker compose --profile onvif up -d`。
|
||||
|
||||
---
|
||||
|
||||
### 2. 服务启动失败
|
||||
|
||||
#### 问题:容器无法启动
|
||||
|
||||
**检查步骤**:
|
||||
```bash
|
||||
# 1. 查看容器状态
|
||||
docker compose ps
|
||||
|
||||
# 2. 查看容器日志
|
||||
docker compose logs <服务名>
|
||||
|
||||
# 3. 检查端口占用
|
||||
netstat -tulpn | grep <端口>
|
||||
```
|
||||
|
||||
**常见原因**:
|
||||
- 端口被占用
|
||||
- 配置文件语法错误
|
||||
- 磁盘空间不足
|
||||
- 权限问题
|
||||
|
||||
**解决方案**:
|
||||
- 修改端口映射或停止占用端口的服务
|
||||
- 检查配置文件语法
|
||||
- 清理磁盘空间
|
||||
- 检查文件权限
|
||||
|
||||
---
|
||||
|
||||
### 3. 数据未推送到中央服务器
|
||||
|
||||
#### 问题:边缘节点数据未出现在中央服务器
|
||||
|
||||
**如何确认是否已写入远程(remote_write 是否成功)**:
|
||||
|
||||
- **重要**:若边缘和中央是**不同机器**(例如边缘 192.168.2.106、中央 192.168.1.10),则 `.env` 里必须填**中央服务器的 IP 或域名**,不能填 `host.docker.internal`(在边缘机上该主机名指向边缘自己,VictoriaMetrics 不在边缘上,导致无法写入)。本机同机部署时才用 `host.docker.internal`。
|
||||
|
||||
1. **在边缘 Prometheus 看推送指标**
|
||||
打开边缘 Prometheus 的 Graph 页面(如 `http://<边缘IP>:9092/graph`),执行:
|
||||
- `prometheus_remote_storage_succeeded_samples_total` — 成功写入远程的样本数(有增长说明在推送)。
|
||||
- `prometheus_remote_storage_failed_samples_total` — 失败的样本数(若持续增加说明推送失败,需看日志)。
|
||||
- `prometheus_remote_storage_queue_length` — 待发送队列长度(长时间很大说明推送跟不上或失败)。
|
||||
|
||||
2. **在中央直接查 VictoriaMetrics**
|
||||
在**中央服务器**上执行(或浏览器访问):
|
||||
```bash
|
||||
curl -sG 'http://localhost:8428/api/v1/series' --data-urlencode 'match[]=probe_success{job="network-ping"}'
|
||||
```
|
||||
- 若返回 `"data":[]` 表示还没有收到边缘数据(可能是网络不通、刚启动未到抓取周期、或 remote_write 失败)。
|
||||
- 若 `data` 里有元素(带 `__name__`、`job`、`region` 等),说明边缘数据已写入中央。
|
||||
|
||||
3. **在 Grafana 用 VictoriaMetrics 数据源**
|
||||
数据源选 **VictoriaMetrics**,查询例如:
|
||||
- `probe_success{job="network-ping", region="workernode_1"}`
|
||||
有曲线即表示远程写入且可查询。
|
||||
|
||||
**检查步骤**:
|
||||
```bash
|
||||
# 1. 检查边缘节点 Prometheus
|
||||
curl http://localhost:9092/api/v1/query?query=up
|
||||
|
||||
# 2. 检查网络连通性
|
||||
ping <中央服务器IP>
|
||||
telnet <中央服务器IP> 8428
|
||||
|
||||
# 3. 检查环境变量
|
||||
cat edge-agent/.env
|
||||
|
||||
# 4. 查看边缘节点日志
|
||||
docker compose logs prometheus-edge
|
||||
```
|
||||
|
||||
**常见原因**:
|
||||
- 中央服务器地址配置错误
|
||||
- 网络不通
|
||||
- 防火墙阻止
|
||||
- VictoriaMetrics 服务未运行
|
||||
|
||||
**解决方案**:
|
||||
- 检查 `.env` 文件中的 `CENTRAL_SERVER_HOST`
|
||||
- 测试网络连通性
|
||||
- 检查防火墙规则
|
||||
- 确认中央服务器 VictoriaMetrics 正常运行
|
||||
|
||||
---
|
||||
|
||||
### 4. 告警规则未激活
|
||||
|
||||
#### 问题:告警规则显示为 inactive
|
||||
|
||||
**检查步骤**:
|
||||
```bash
|
||||
# 1. 在 Prometheus 中查询指标
|
||||
# 访问 http://localhost:9091
|
||||
# 查询: up{job="onvif-devices"}
|
||||
# 查询: probe_success{job="network-ping"}
|
||||
|
||||
# 2. 检查告警规则文件
|
||||
cat central-server/alert_rules.yml
|
||||
|
||||
# 3. 检查 Prometheus 配置
|
||||
cat central-server/prometheus.yml
|
||||
```
|
||||
|
||||
**常见原因**:
|
||||
- 指标不存在(边缘节点未推送数据)
|
||||
- 告警规则表达式错误
|
||||
- 告警规则文件未加载
|
||||
|
||||
**解决方案**:
|
||||
- 部署边缘节点并配置监控目标
|
||||
- 检查告警规则表达式
|
||||
- 确认 `prometheus.yml` 中引用了 `alert_rules.yml`
|
||||
- 重启 Prometheus 容器
|
||||
|
||||
---
|
||||
|
||||
### 4. Grafana 无法查询数据
|
||||
|
||||
#### 问题:Grafana 中查询不到数据
|
||||
|
||||
**检查步骤**:
|
||||
```bash
|
||||
# 1. 检查数据源配置
|
||||
# 访问 Grafana: http://localhost:3000
|
||||
# 进入: Configuration -> Data Sources
|
||||
|
||||
# 2. 测试数据源连接
|
||||
# 在数据源配置页面点击 "Test" 按钮
|
||||
|
||||
# 3. 检查 Prometheus 是否运行
|
||||
docker compose ps prometheus-central
|
||||
|
||||
# 4. 直接在 Prometheus 查询
|
||||
curl http://localhost:9091/api/v1/query?query=up
|
||||
```
|
||||
|
||||
**常见原因**:
|
||||
- 数据源 URL 配置错误
|
||||
- Prometheus 服务未运行
|
||||
- 网络问题(容器间通信)
|
||||
|
||||
**解决方案**:
|
||||
- 检查数据源 URL(应为 `http://prometheus-central:9090`)
|
||||
- 重启 Prometheus 容器
|
||||
- 检查 Docker 网络配置
|
||||
|
||||
---
|
||||
|
||||
### 5. 磁盘空间不足
|
||||
|
||||
#### 问题:容器启动失败,提示空间不足
|
||||
|
||||
**检查步骤**:
|
||||
```bash
|
||||
# 1. 检查磁盘空间
|
||||
df -h
|
||||
|
||||
# 2. 检查 Docker 数据目录
|
||||
du -sh /storage/docker
|
||||
du -sh /storage/containerd
|
||||
|
||||
# 3. 检查应用数据目录
|
||||
du -sh /storage/prometheus-data
|
||||
du -sh /storage/grafana-data
|
||||
du -sh /storage/victoria-metrics-data
|
||||
```
|
||||
|
||||
**解决方案**:
|
||||
- 清理 Docker 资源:`docker system prune -a --volumes`
|
||||
- 清理系统日志:`journalctl --vacuum-time=3d`
|
||||
- 清理包缓存:`dnf clean all` 或 `apt-get clean`
|
||||
- 确保数据存储在 `/storage` 分区
|
||||
|
||||
---
|
||||
|
||||
### 6. 端口冲突
|
||||
|
||||
#### 问题:容器启动失败,端口已被占用
|
||||
|
||||
**检查步骤**:
|
||||
```bash
|
||||
# 1. 检查端口占用
|
||||
netstat -tulpn | grep <端口>
|
||||
# 或
|
||||
ss -tulpn | grep <端口>
|
||||
|
||||
# 2. 查看占用端口的进程
|
||||
lsof -i :<端口>
|
||||
```
|
||||
|
||||
**解决方案**:
|
||||
- 停止占用端口的服务
|
||||
- 或修改 `docker-compose.yml` 中的端口映射
|
||||
- 常见端口冲突:
|
||||
- 9090 - cockpit(已改为 9091)
|
||||
- 9092 - 边缘节点 Prometheus
|
||||
|
||||
---
|
||||
|
||||
### 7. 配置文件语法错误
|
||||
|
||||
#### 问题:容器启动失败,提示配置错误
|
||||
|
||||
**检查步骤**:
|
||||
```bash
|
||||
# 1. 检查 Prometheus 配置
|
||||
docker exec prometheus-central promtool check config /etc/prometheus/prometheus.yml
|
||||
|
||||
# 2. 检查 Alertmanager 配置
|
||||
docker exec alertmanager amtool check-config /etc/alertmanager/alertmanager.yml
|
||||
|
||||
# 3. 检查 JSON 配置文件
|
||||
jq . config/*.json
|
||||
```
|
||||
|
||||
**解决方案**:
|
||||
- 修复配置文件语法错误
|
||||
- 验证 YAML 格式(注意缩进)
|
||||
- 验证 JSON 格式
|
||||
|
||||
---
|
||||
|
||||
### 8. 权限问题
|
||||
|
||||
#### 问题:容器无法写入数据目录
|
||||
|
||||
**检查步骤**:
|
||||
```bash
|
||||
# 1. 检查目录权限
|
||||
ls -ld /storage/prometheus-data
|
||||
ls -ld /storage/grafana-data
|
||||
|
||||
# 2. 检查容器用户
|
||||
docker exec prometheus-central id
|
||||
docker exec grafana id
|
||||
```
|
||||
|
||||
**解决方案**:
|
||||
```bash
|
||||
# Prometheus 数据目录
|
||||
chmod 777 /storage/prometheus-data
|
||||
|
||||
# Grafana 数据目录(UID 472)
|
||||
chown -R 472:472 /storage/grafana-data
|
||||
|
||||
# VictoriaMetrics 数据目录
|
||||
chmod 777 /storage/victoria-metrics-data
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
### 9. 网络问题
|
||||
|
||||
#### 问题:容器间无法通信
|
||||
|
||||
**检查步骤**:
|
||||
```bash
|
||||
# 1. 检查 Docker 网络
|
||||
docker network ls
|
||||
docker network inspect <网络名>
|
||||
|
||||
# 2. 测试容器间连通性
|
||||
docker exec prometheus-central ping victoria-metrics
|
||||
docker exec grafana ping prometheus-central
|
||||
```
|
||||
|
||||
**解决方案**:
|
||||
- 确保所有容器在同一 Docker 网络中
|
||||
- 检查 `docker-compose.yml` 中的网络配置
|
||||
- 重启所有容器
|
||||
|
||||
---
|
||||
|
||||
### 10. 镜像拉取失败
|
||||
|
||||
#### 问题:`docker compose pull` 失败
|
||||
|
||||
**常见原因**:
|
||||
- 网络连接问题
|
||||
- Docker Hub 速率限制
|
||||
- 镜像不存在
|
||||
|
||||
**解决方案**:
|
||||
- 配置 Docker 镜像加速器
|
||||
- 检查网络连接
|
||||
- 使用国内镜像源
|
||||
- 稍后重试
|
||||
|
||||
---
|
||||
|
||||
## 日志查看命令
|
||||
|
||||
### 查看所有服务日志
|
||||
```bash
|
||||
docker compose logs -f
|
||||
```
|
||||
|
||||
### 查看特定服务日志
|
||||
```bash
|
||||
docker compose logs -f prometheus-central
|
||||
docker compose logs -f grafana
|
||||
docker compose logs -f alertmanager
|
||||
docker compose logs -f victoria-metrics
|
||||
```
|
||||
|
||||
### 查看最近 100 行日志
|
||||
```bash
|
||||
docker compose logs --tail=100
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 性能问题排查
|
||||
|
||||
### 高 CPU 使用率
|
||||
|
||||
**检查**:
|
||||
```bash
|
||||
# 查看容器资源使用
|
||||
docker stats
|
||||
|
||||
# 检查 Prometheus 抓取目标数量
|
||||
# 访问 http://localhost:9091/targets
|
||||
```
|
||||
|
||||
**解决**:
|
||||
- 减少抓取间隔
|
||||
- 减少监控目标数量
|
||||
- 增加资源限制
|
||||
|
||||
### 高内存使用率
|
||||
|
||||
**检查**:
|
||||
```bash
|
||||
docker stats
|
||||
```
|
||||
|
||||
**解决**:
|
||||
- 减少数据保留时间
|
||||
- 减少抓取目标
|
||||
- 增加内存限制
|
||||
|
||||
---
|
||||
|
||||
## 数据问题排查
|
||||
|
||||
### 数据丢失
|
||||
|
||||
**检查**:
|
||||
```bash
|
||||
# 检查数据目录
|
||||
ls -lh /storage/prometheus-data
|
||||
ls -lh /storage/victoria-metrics-data
|
||||
|
||||
# 检查数据保留配置
|
||||
grep retention prometheus.yml
|
||||
```
|
||||
|
||||
**解决**:
|
||||
- 检查数据保留时间配置
|
||||
- 检查磁盘空间
|
||||
- 检查数据目录权限
|
||||
|
||||
### 数据不一致
|
||||
|
||||
**检查**:
|
||||
- 在 Prometheus 和 VictoriaMetrics 中查询相同指标
|
||||
- 检查时间范围
|
||||
- 检查标签匹配
|
||||
|
||||
---
|
||||
|
||||
## 获取帮助
|
||||
|
||||
如果以上方法无法解决问题:
|
||||
|
||||
1. **查看详细日志**:
|
||||
```bash
|
||||
docker compose logs --tail=200 > logs.txt
|
||||
```
|
||||
|
||||
2. **收集系统信息**:
|
||||
```bash
|
||||
docker info > docker-info.txt
|
||||
docker compose ps > services-status.txt
|
||||
df -h > disk-usage.txt
|
||||
```
|
||||
|
||||
3. **检查配置文件**:
|
||||
- 验证所有配置文件语法
|
||||
- 检查环境变量
|
||||
- 检查网络配置
|
||||
|
||||
---
|
||||
|
||||
## 相关文档
|
||||
|
||||
- **部署指南**:`doc/DEPLOYMENT_GUIDE.md`
|
||||
- **中央服务器配置**:`doc/CENTRAL_SERVER_CONFIG.md`
|
||||
- **边缘节点配置**:`doc/EDGE_AGENT_CONFIG.md`
|
||||
- **系统架构**:`doc/ARCHITECTURE.md`
|
||||
214
doc/USER_MANAGEMENT.md
Normal file
214
doc/USER_MANAGEMENT.md
Normal file
@@ -0,0 +1,214 @@
|
||||
# Grafana 多用户管理方案
|
||||
|
||||
## 概述
|
||||
|
||||
Grafana 支持多用户管理,可以通过以下方式实现不同用户查看不同设备监控:
|
||||
|
||||
1. **组织(Organizations)**:创建多个组织,每个组织有独立的用户和数据源
|
||||
2. **数据源权限**:通过 Prometheus/VictoriaMetrics 的标签过滤实现数据隔离
|
||||
3. **仪表板权限**:为不同用户/组织分配不同的仪表板访问权限
|
||||
|
||||
## 实现方案
|
||||
|
||||
### 方案一:使用组织隔离(推荐)
|
||||
|
||||
每个用户组创建一个独立的 Grafana 组织,通过数据源标签过滤实现数据隔离。
|
||||
|
||||
**优点**:
|
||||
- 完全隔离,安全性高
|
||||
- 每个组织有独立的数据源和仪表板
|
||||
- 易于管理
|
||||
|
||||
**配置步骤**:
|
||||
|
||||
1. **在 Grafana Web 界面创建组织**:
|
||||
- 登录 Grafana (admin/admin123)
|
||||
- 点击左侧菜单 → Administration → Organizations
|
||||
- 创建新组织(如:用户组A、用户组B)
|
||||
|
||||
2. **为每个组织创建用户**:
|
||||
- 在对应组织中创建用户
|
||||
- 设置用户角色(Viewer/Editor/Admin)
|
||||
|
||||
3. **配置数据源标签过滤**:
|
||||
- 为每个组织创建独立的数据源
|
||||
- 使用 Prometheus 标签过滤,例如:
|
||||
```promql
|
||||
# 用户组A只能看到 region="region_a" 的设备
|
||||
up{region="region_a"}
|
||||
```
|
||||
|
||||
### 方案二:使用 Prometheus 标签过滤
|
||||
|
||||
在 Prometheus 查询中使用标签过滤,通过 Grafana 变量实现动态过滤。
|
||||
|
||||
**配置示例**:
|
||||
|
||||
1. **在 Prometheus 中为设备添加标签**:
|
||||
```yaml
|
||||
# prometheus.yml
|
||||
external_labels:
|
||||
cluster: 'central-monitoring'
|
||||
# 边缘节点推送数据时添加用户组标签
|
||||
```
|
||||
|
||||
2. **在 Grafana 仪表板中使用变量**:
|
||||
- 创建变量:`$user_group`(从用户属性获取)
|
||||
- 查询时使用标签过滤:
|
||||
```promql
|
||||
up{user_group="$user_group"}
|
||||
```
|
||||
|
||||
### 方案三:使用 Grafana 权限控制
|
||||
|
||||
为不同用户分配不同的仪表板访问权限。
|
||||
|
||||
**配置步骤**:
|
||||
|
||||
1. **创建用户**:
|
||||
- Administration → Users → New User
|
||||
- 设置用户名、邮箱、密码
|
||||
|
||||
2. **设置仪表板权限**:
|
||||
- 打开仪表板 → Settings → Permissions
|
||||
- 为不同用户/团队设置权限(View/Edit/Admin)
|
||||
|
||||
3. **使用文件夹组织仪表板**:
|
||||
- 创建文件夹(如:用户组A设备、用户组B设备)
|
||||
- 为文件夹设置权限
|
||||
|
||||
## 推荐配置流程
|
||||
|
||||
### 1. 通过 API 批量创建用户和组织
|
||||
|
||||
可以使用 Grafana API 或配置脚本批量创建。
|
||||
|
||||
### 2. 数据源配置
|
||||
|
||||
为每个组织创建独立的数据源,使用标签过滤:
|
||||
|
||||
```yaml
|
||||
# grafana/provisioning/datasources/prometheus-user-group-a.yml
|
||||
datasources:
|
||||
- name: Prometheus-UserGroupA
|
||||
type: prometheus
|
||||
access: proxy
|
||||
url: http://prometheus-central:9090
|
||||
jsonData:
|
||||
# 使用标签过滤
|
||||
exemplarTraceIdDestinations:
|
||||
- name: traceID
|
||||
datasourceUid: tempo
|
||||
```
|
||||
|
||||
### 3. 仪表板权限
|
||||
|
||||
在仪表板 JSON 中配置权限:
|
||||
|
||||
```json
|
||||
{
|
||||
"dashboard": {
|
||||
"title": "用户组A设备监控",
|
||||
"tags": ["user-group-a"],
|
||||
...
|
||||
},
|
||||
"meta": {
|
||||
"permissions": [
|
||||
{
|
||||
"role": "Viewer",
|
||||
"permission": 1
|
||||
}
|
||||
]
|
||||
}
|
||||
}
|
||||
```
|
||||
|
||||
## 使用脚本自动化配置
|
||||
|
||||
可以使用 `setup-users.sh` 脚本批量创建用户和组织。
|
||||
|
||||
## 管理员权限说明
|
||||
|
||||
### 服务器管理员(Server Admin)
|
||||
|
||||
**默认管理员账户**:`admin` / `admin123`
|
||||
|
||||
**权限范围**:
|
||||
- ✅ **可以访问所有组织**:管理员可以在不同组织间切换
|
||||
- ✅ **可以查看所有数据**:通过切换组织或使用无标签过滤的查询
|
||||
- ✅ **可以管理所有用户和组织**
|
||||
- ✅ **可以创建和编辑所有数据源和仪表板**
|
||||
|
||||
### 如何让管理员查看所有数据
|
||||
|
||||
#### 方法一:切换组织查看(推荐)
|
||||
|
||||
1. 登录管理员账户
|
||||
2. 点击右上角用户图标 → **Switch Organization**
|
||||
3. 选择要查看的组织
|
||||
4. 每个组织的数据源和仪表板都会显示
|
||||
|
||||
#### 方法二:创建全局数据源
|
||||
|
||||
为管理员创建一个不受标签限制的数据源:
|
||||
|
||||
```yaml
|
||||
# grafana/provisioning/datasources/prometheus-admin.yml
|
||||
apiVersion: 1
|
||||
|
||||
datasources:
|
||||
- name: Prometheus-All-Data
|
||||
type: prometheus
|
||||
access: proxy
|
||||
url: http://prometheus-central:9090
|
||||
isDefault: true
|
||||
editable: false
|
||||
# 管理员可以使用无标签过滤的查询查看所有数据
|
||||
# 例如: up 而不是 up{user_group="xxx"}
|
||||
```
|
||||
|
||||
#### 方法三:创建管理员专用仪表板
|
||||
|
||||
创建管理员仪表板,使用无标签过滤的查询:
|
||||
|
||||
```promql
|
||||
# 查看所有设备(不限制用户组)
|
||||
up
|
||||
|
||||
# 按用户组分组查看
|
||||
up{user_group=~".+"}
|
||||
|
||||
# 查看所有标签的设备
|
||||
up{job=~".+"}
|
||||
```
|
||||
|
||||
### 组织管理员(Org Admin)
|
||||
|
||||
组织管理员只能:
|
||||
- ❌ 管理自己组织内的用户
|
||||
- ❌ 查看自己组织的数据源和仪表板
|
||||
- ✅ 在组织内创建和编辑仪表板
|
||||
|
||||
### 权限层级
|
||||
|
||||
```
|
||||
服务器管理员 (Server Admin)
|
||||
├── 可以访问所有组织
|
||||
├── 可以查看所有数据
|
||||
└── 可以管理所有用户和组织
|
||||
|
||||
组织管理员 (Org Admin)
|
||||
├── 只能管理自己组织
|
||||
└── 只能查看自己组织的数据
|
||||
|
||||
普通用户 (Viewer/Editor)
|
||||
├── 只能查看/编辑分配的仪表板
|
||||
└── 受数据源标签过滤限制
|
||||
```
|
||||
|
||||
## 注意事项
|
||||
|
||||
1. **数据安全**:确保 Prometheus 查询权限正确配置
|
||||
2. **性能**:大量用户时考虑使用 Grafana Enterprise 版本
|
||||
3. **标签管理**:确保边缘节点推送数据时包含正确的用户组标签
|
||||
4. **管理员权限**:服务器管理员默认可以访问所有数据,这是 Grafana 的设计特性
|
||||
Reference in New Issue
Block a user