03-08-k3s HA 集群配置与切换

本文只讲双控制节点 HA 的集群配置与切换步骤。

TL;DR

自动化验收：./scripts/verify.sh run 03-08
关键前置：按本文「前置条件」准备环境变量/Secret/入口 IP
成功判据：达到本文「预期」且 playbook 断言通过
排障：见本文「排障」

前置条件

已完成 01-08-双控制节点ha.md 安装准备
外部 datastore 与 6443 LB 已可用
已确认可执行变更窗口

操作步骤

在首个 server 配置外部 datastore 参数
第二个 server 使用一致参数加入
将 worker 与 kubeconfig 的 API 地址切换到 LB 地址
校验所有节点与核心组件健康

一个简化的两节点 server 启动示例（仅用于帮助理解参数含义）：

# server1（例如 192.168.2.61）
sudo k3s server \
  --datastore-endpoint="postgres://k3s:strong-password@192.168.2.50:5432/k3s?sslmode=disable" \
  --tls-san 192.168.2.60

# server2（例如 192.168.2.63），使用相同 datastore 与 token：
sudo k3s server \
  --server https://192.168.2.60:6443 \
  --token <SAME_TOKEN> \
  --datastore-endpoint="postgres://k3s:strong-password@192.168.2.50:5432/k3s?sslmode=disable" \
  --tls-san 192.168.2.60

实际执行时，请优先参考官方 HA 文档与本仓库步骤，将上述命令转化为持久化的 systemd 配置或安装脚本参数。

验证命令

kubectl get nodes -o wide
kubectl get pods -A

进行一次故障演练：停止任意一个 server，确认 API 仍可访问。

预期

两个 server 都为 Ready
控制平面故障切换后，集群仍可管理

失败排查

检查 datastore 连通性与账号权限
检查 LB 后端健康与 6443 转发
检查两个 server 参数是否一致

参考

01-08-双控制节点ha.md
01-01-k3s-控制节点含traefik.md
01-02-k3s-工作节点.md

下一步

返回 00-00-构建总览.md，按导航继续。

排障

先看 playbook 输出：失败时先定位是 deploy/wait/http_check 哪一步。
集群侧总览：kubectl get nodes -o wide、kubectl -n kube-system get pods -o wide。
事件与日志：kubectl -n <ns> describe ...、kubectl -n <ns> logs ... --tail=200。

3.7 KiB Raw Blame History Unescape Escape

03-08-k3s HA 集群配置与切换

TL;DR

前置条件

操作步骤

推荐：将现有 worker 升级为第二控制节点的顺序

验证命令

预期

失败排查

参考

下一步

排障

3.7 KiB

Raw Blame History