Node Problem Detector (NPD) 完全指南#

一、NPD简介#

1.1 什么是Node Problem Detector？#

Node Problem Detector (NPD) 是一个Kubernetes官方的节点问题检测工具，旨在使集群管理堆栈中的上游层能够看到各种节点问题。它作为一个守护进程在每个节点上运行，检测节点问题并将其报告给Kubernetes API Server。

官方仓库：https://github.com/kubernetes/node-problem-detector

1.2 为什么需要NPD？#

在Kubernetes集群中，大量节点问题可能会影响节点上运行的Pod，例如：

基础设施守护进程问题：NTP服务关闭、SSH服务异常
硬件问题：CPU、内存或磁盘损坏、网络故障
内核问题：内核死锁、文件系统损坏、内核崩溃
容器运行时问题：Docker/Containerd守护进程无响应
Kubernetes组件问题：Kubelet频繁重启、Kube-proxy异常

在NPD出现之前，这些问题对于集群管理堆栈中的上游层是不可见的，因此Kubernetes会继续将Pod调度到有问题的节点上，导致应用不稳定。

NPD的引入解决了这个问题，它能够：

实时检测节点层面的各种问题
将问题报告给Kubernetes API Server
触发自动化的故障处理流程
提高集群的稳定性和可靠性

1.3 NPD的应用场景#

NPD已经被广泛应用于生产环境中：

GKE (Google Kubernetes Engine)：作为默认启用的Kubernetes Addon运行
AKS (Azure Kubernetes Service)：作为Linux Extension的一部分默认启用
企业自建集群：用于提升集群的故障检测和自动恢复能力

1.4 部署方式#

NPD支持多种部署方式：

DaemonSet部署：作为Kubernetes DaemonSet在每个节点上运行（推荐）
独立部署：作为独立的守护进程运行，适用于非Kubernetes环境
混合部署：结合两种方式，满足不同场景需求

二、核心概念和架构#

2.1 Problem API#

NPD使用两种方式向Kubernetes API Server报告问题：

NodeCondition#

用于报告导致节点无法用于Pod的永久性问题，这些条件会直接影响节点的调度状态。

常见的NodeCondition类型：

KernelDeadlock：内核死锁
ReadonlyFilesystem：文件系统只读
FrequentKubeletRestart：Kubelet频繁重启
FrequentDockerRestart：Docker频繁重启
FrequentContainerdRestart：Containerd频繁重启
KubeletUnhealthy：Kubelet不健康
ContainerRuntimeUnhealthy：容器运行时不健康

Event#

用于报告对Pod影响有限但具有参考意义的临时性问题。这些事件不会直接影响节点的调度状态，但可以用于故障诊断和趋势分析。

2.2 架构设计#

NPD采用模块化的架构设计，主要包含以下几个核心组件：

1
┌─────────────────────────────────────────────────────────────┐
2
│                    Node Problem Detector                    │
3
├─────────────────────────────────────────────────────────────┤
4
│  Problem Daemons (问题守护进程)                          │
5
│  ├─ SystemLogMonitor    (系统日志监控)                  │
6
│  ├─ SystemStatsMonitor  (系统统计监控)                  │
7
│  ├─ CustomPluginMonitor (自定义插件监控)                │
8
│  └─ HealthChecker       (健康检查)                     │
9
├─────────────────────────────────────────────────────────────┤
10
│  Exporters (导出器)                                   │
11
│  ├─ Kubernetes Exporter  (Kubernetes API)              │
12
│  ├─ Prometheus Exporter  (Prometheus指标)              │
13
│  └─ Stackdriver Exporter (Google Cloud监控)            │
14
└─────────────────────────────────────────────────────────────┘

2.3 工作流程#

问题检测：Problem Daemons持续监控节点的各种状态和日志
问题分析：根据预定义的规则分析检测到的问题
问题报告：通过Exporters将问题报告到目标系统
问题处理：Kubernetes或其他系统根据报告的问题采取相应措施
状态更新：持续跟踪问题的状态变化

三、Problem Daemons详解#

3.1 SystemLogMonitor (系统日志监控)#

功能说明#

系统日志监控器监视系统日志并根据预定义的规则报告问题和指标。它能够检测内核级别的错误、系统服务的异常等。

支持的配置类型#

配置类型	说明	示例文件
filelog	文件日志监控	kernel-monitor-filelog.json
kmsg	内核消息监控	kernel-monitor.json
kernel	内核监控	kernel-monitor-counter.json
abrt	ABRT (Automatic Bug Reporting Tool) 监控	systemd-monitor-counter.json
systemd	Systemd服务监控	systemd-monitor-counter.json

检测的问题类型#

KernelDeadlock：内核死锁
ReadonlyFilesystem：文件系统变为只读
FrequentKubeletRestart：Kubelet频繁重启
FrequentDockerRestart：Docker频繁重启
FrequentContainerdRestart：Containerd频繁重启

配置示例#

1
{
2
  "plugin": "kmsg",
3
  "logPath": "/dev/kmsg",
4
  "lookback": "5m",
5
  "bufferSize": 10,
6
  "source": "kernel-monitor",
7
  "conditions": [
8
    {
9
      "type": "KernelDeadlock",
10
      "reason": "KernelDeadlock",
11
      "message": "kernel: BUG: soft lockup - CPU#%d stuck for %us! [%s:%d]"
12
    }
13
  ],
14
  "metrics": [
15
    {
16
      "name": "kernel_deadlock_total",
17
      "help": "Number of kernel deadlocks detected",
18
      "labels": ["reason"]
19
    }
20
  ]
21
}

3.2 SystemStatsMonitor (系统统计监控)#

功能说明#

系统统计监控器用于收集各种与健康相关的系统统计信息作为指标，包括CPU使用率、内存使用情况、磁盘IO等。

监控指标#

CPU使用率
内存使用率
磁盘使用率和IO
网络流量
系统负载

配置示例#

1
{
2
  "plugin": "system-stats-monitor",
3
  "metrics": [
4
    {
5
      "name": "node_cpu_usage_percentage",
6
      "help": "CPU usage percentage",
7
      "type": "gauge"
8
    },
9
    {
10
      "name": "node_memory_usage_percentage",
11
      "help": "Memory usage percentage",
12
      "type": "gauge"
13
    }
14
  ]
15
}

3.3 CustomPluginMonitor (自定义插件监控)#

功能说明#

自定义插件监控器允许用户编写自定义的检查脚本来监控特定的问题，提供了极大的灵活性。

使用场景#

监控特定的应用程序状态
检查自定义的服务健康状态
集成第三方的监控工具
实现业务特定的故障检测逻辑

配置示例#

1
{
2
  "plugin": "custom",
3
  "pluginConfigFile": "/etc/kubernetes/node-problem-detector/custom-plugin-config.json",
4
  "metrics": [
5
    {
6
      "name": "custom_plugin_check_total",
7
      "help": "Number of custom plugin checks",
8
      "labels": ["result"]
9
    }
10
  ]
11
}

插件脚本示例#

1
#!/bin/bash
2
# NTP问题检测脚本
3

4
# 检查NTP服务状态
5
if ! systemctl is-active --quiet ntpd; then
6
    echo "NTP service is not running"
7
    exit 1
8
fi
9

10
# 检查NTP同步状态
11
ntpq -p | grep "*"
12
if [ $? -ne 0 ]; then
13
    echo "NTP is not synchronized"
14
    exit 1
15
fi
16

17
echo "NTP is healthy"
18
exit 0

3.4 HealthChecker (健康检查)#

功能说明#

健康检查器用于检查Kubelet和容器运行时的健康状况，确保Kubernetes核心组件的正常运行。

检测的问题类型#

KubeletUnhealthy：Kubelet不健康
ContainerRuntimeUnhealthy：容器运行时不健康

检查机制#

定期检查Kubelet的健康端点
监控容器运行时的状态
检查关键服务的运行时间
分析相关日志的错误模式

配置选项#

配置项	说明	默认值
component	组件名称	-
service	服务名称	-
enableRepair	是否启用自动修复	false
healthCheckTimeout	健康检查超时时间	30s
coolDownTime	修复后的冷却时间	5m

四、Exporters详解#

4.1 Kubernetes Exporter#

功能说明#

Kubernetes Exporter向Kubernetes API Server报告节点问题：

临时问题报告为Event
永久问题报告为NodeCondition

工作原理#

接收来自Problem Daemons的状态信息
根据问题的严重程度决定报告方式
调用Kubernetes API更新Node状态或创建Event
处理API调用的错误和重试

配置参数#

参数	说明	默认值
—enable-k8s-exporter	是否启用Kubernetes导出器	true
—apiserver-override	自定义API Server地址	-
—address	HTTP服务绑定地址	127.0.0.1
—port	HTTP服务绑定端口	20256

HTTP端点#

/healthz：健康检查端点
/conditions：当前节点条件
/debug/pprof：性能分析端点

4.2 Prometheus Exporter#

功能说明#

Prometheus Exporter将节点问题和指标本地报告为Prometheus指标，便于与Prometheus监控系统集成。

指标类型#

Counter：计数器类型，记录问题发生的次数
Gauge：量规类型，记录当前问题的状态

配置参数#

参数	说明	默认值
—prometheus-address	Prometheus抓取端点地址	127.0.0.1
—prometheus-port	Prometheus抓取端点端口	20257

指标示例#

1
# HELP node_problem_detector_problem_total Number of times a specific type of problem have occurred.
2
# TYPE node_problem_detector_problem_total counter
3
node_problem_detector_problem_total{reason="KernelDeadlock"} 1
4
node_problem_detector_problem_total{reason="ReadonlyFilesystem"} 0
5

6
# HELP node_problem_detector_problem_gauge Whether a specific type of problem is affecting node or not.
7
# TYPE node_problem_detector_problem_gauge gauge
8
node_problem_detector_problem_gauge{type="KernelDeadlock",reason="KernelDeadlock"} 1
9
node_problem_detector_problem_gauge{type="ReadonlyFilesystem",reason="ReadonlyFilesystem"} 0

4.3 Stackdriver Exporter#

功能说明#

Stackdriver Exporter向Google Cloud Stackdriver Monitoring API报告节点问题和指标，适用于GKE环境。

配置示例#

1
{
2
  "project_id": "your-project-id",
3
  "monitored_resource_type": "gke_instance",
4
  "monitored_resource_labels": {
5
    "project_id": "your-project-id",
6
    "location": "us-central1-a",
7
    "cluster_name": "your-cluster",
8
    "instance_id": "node-1"
9
  }
10
}

五、代码结构分析#

5.1 项目结构#

1
node-problem-detector/
2
├── pkg/                          # 核心代码包
3
│   ├── custompluginmonitor/        # 自定义插件监控
4
│   ├── exporters/                # 导出器实现
5
│   │   ├── k8sexporter/       # Kubernetes导出器
6
│   │   ├── prometheusexporter/ # Prometheus导出器
7
│   │   └── stackdriver/        # Stackdriver导出器
8
│   ├── healthchecker/            # 健康检查
9
│   ├── logcounter/              # 日志计数器
10
│   ├── problemdaemon/          # 问题守护进程框架
11
│   ├── problemdetector/         # 问题检测器核心
12
│   ├── problemmetrics/          # 问题指标管理
13
│   ├── systemlogmonitor/         # 系统日志监控
14
│   ├── systemstatsmonitor/       # 系统统计监控
15
│   ├── types/                  # 类型定义
16
│   ├── util/                   # 工具函数
17
│   └── version/                # 版本信息
18
├── cmd/                        # 命令行工具
19
├── config/                      # 配置文件
20
├── deployment/                  # 部署文件
21
├── test/                       # 测试文件
22
└── Makefile                    # 构建脚本

5.2 核心组件分析#

5.2.1 ProblemDaemon (问题守护进程)#

Register函数

1
// 注册问题守护进程工厂方法
2
func Register(problemDaemonType types.ProblemDaemonType, handler types.ProblemDaemonHandler) {
3
    handlers[problemDaemonType] = handler
4
}

NewProblemDaemons函数

1
// 根据配置创建所有问题守护进程
2
func NewProblemDaemons(monitorConfigPaths types.ProblemDaemonConfigPathMap) []types.Monitor {
3
    problemDaemonMap := make(map[string]types.Monitor)
4

5
    for problemDaemonType, configs := range monitorConfigPaths {
6
        for _, config := range *configs {
7
            if _, ok := problemDaemonMap[config]; ok {
8
                // 跳过重复配置
9
                klog.Warningf("Duplicated problem daemon configuration %q", config)
10
                continue
11
            }
12
            problemDaemonMap[config] = handlers[problemDaemonType].CreateProblemDaemonOrDie(config)
13
        }
14
    }
15

16
    problemDaemons := []types.Monitor{}
17
    for _, problemDaemon := range problemDaemonMap {
18
        problemDaemons = append(problemDaemons, problemDaemon)
19
    }
20
    return problemDaemons
21
}

5.2.2 ProblemDetector (问题检测器)#

Run函数

1
// 启动问题检测器
2
func (p *problemDetector) Run(ctx context.Context) error {
3
    // 启动所有监控器
4
    var chans []<-chan *types.Status
5
    failureCount := 0
6

7
    for _, m := range p.monitors {
8
        ch, err := m.Start()
9
        if err != nil {
10
            klog.Errorf("Failed to start problem daemon %v: %v", m, err)
11
            failureCount++
12
            continue
13
        }
14
        if ch != nil {
15
            chans = append(chans, ch)
16
        }
17
    }
18

19
    allMonitors := p.monitors
20

21
    if len(allMonitors) == failureCount {
22
        return fmt.Errorf("no problem daemon is successfully setup")
23
    }
24

25
    defer func() {
26
        for _, m := range allMonitors {
27
            m.Stop()
28
        }
29
    }()
30

31
    ch := groupChannel(chans)
32
    klog.Info("Problem detector started")
33

34
    for {
35
        select {
36
        case <-ctx.Done():
37
            return nil
38
        case status := <-ch:
39
            for _, exporter := range p.exporters {
40
                exporter.ExportProblems(status)
41
            }
42
        }
43
    }
44
}

5.2.3 ProblemMetricsManager (问题指标管理器)#

SetProblemGauge函数

1
// 设置问题量规的值
2
func (pmm *ProblemMetricsManager) SetProblemGauge(problemType string, reason string, value bool) error {
3
    if pmm.problemGauge == nil {
4
        return errors.New("problem gauge is being set before initialized.")
5
    }
6

7
    pmm.problemTypeToReasonMutex.Lock()
8
    defer pmm.problemTypeToReasonMutex.Unlock()
9

10
    // 清除之前的原因，确保每个问题类型在任何时刻都最多只有一个原因被设置为1
11
    if lastReason, ok := pmm.problemTypeToReason[problemType]; ok {
12
        err := pmm.problemGauge.Record(map[string]string{"type": problemType, "reason": lastReason}, 0)
13
        if err != nil {
14
            return fmt.Errorf("failed to clear previous reason %q for type %q: %v",
15
                problemType, lastReason, err)
16
        }
17
    }
18

19
    pmm.problemTypeToReason[problemType] = reason
20

21
    var valueInt int64
22
    if value {
23
        valueInt = 1
24
    }
25
    return pmm.problemGauge.Record(map[string]string{"type": problemType, "reason": reason}, valueInt)
26
}

5.3 HealthChecker (健康检查器)#

healthChecker结构体

1
type healthChecker struct {
2
    component       string
3
    service         string
4
    enableRepair    bool
5
    healthCheckFunc func() (bool, error)
6
    repairFunc       func()
7
    uptimeFunc       func() (time.Duration, error)
8
    crictlPath       string
9
    healthCheckTimeout time.Duration
10
    coolDownTime       time.Duration
11
    loopBackTime       time.Duration
12
    logPatternsToCheck map[string]int
13
}

字段说明

component：被检查的Kubernetes组件名称
service：服务名称或标识符
enableRepair：是否启用自动修复
healthCheckFunc：健康检查函数
repairFunc：修复函数
uptimeFunc：获取服务运行时间的函数
healthCheckTimeout：健康检查超时时间
coolDownTime：修复后的冷却时间
loopBackTime：日志回溯时间
logPatternsToCheck：需要检查的日志模式

六、部署和配置#

6.1 搭建Kind集群#

基于kind搭建测试集群快速创建一个可用的测试集群。

配置：

1
kind: Cluster
2
apiVersion: kind.x-k8s.io/v1alpha4
3
networking:
4
  apiServerAddress: "192.168.1.16"
5
nodes:
6
- role: control-plane
7
  extraPortMappings:
8
  - containerPort: 6443
9
    hostPort: 6443
10
    listenAddress: "192.168.1.16"
11
    protocol: tcp
12
- role: control-plane
13
- role: control-plane
14
- role: worker
15
- role: worker

创建高可用集群命令：

1
sudo kind create cluster --config=huari.yaml --name huari-test --image kindest/node:v1.34.0 --retain; sudo kind export logs --name huari-test

切换kubectl上下文：

1
sudo kubectl cluster-info --context kind-huari-test

查看信息：

1
# 查看集群节点
2
sudo kubectl get nodes
3

4
# 查看集群全部的pod
5
sudo kubectl get pods -A -owide

删除集群：

1
sudo kind delete cluster --name huari-test

6.2 Helm部署#

1
# 添加Helm仓库
2
helm repo add deliveryhero https://charts.deliveryhero.io/
3

4
# 安装NPD
5
helm install node-problem-detector deliveryhero/node-problem-detector \
6
  --namespace kube-system \
7
  --create-namespace
8

9
# 安装NPD(代理)
10
helm upgrade node-problem-detector deliveryhero/node-problem-detector \
11
  --namespace kube-system \
12
  --reuse-values \
13
  --set image.repository=m.daocloud.io/k8s.gcr.io/node-problem-detector/node-problem-detector \
14
  --set image.tag=v0.8.15

6.3 配置参数#

启动参数#

参数	说明	默认值
—version	打印版本信息	-
—hostname-override	自定义节点名称	-
—config.system-log-monitor	系统日志监控配置文件路径	-
—config.system-stats-monitor	系统统计监控配置文件路径	-
—config.custom-plugin-monitor	自定义插件监控配置文件路径	-
—enable-k8s-exporter	启用Kubernetes导出器	true
—prometheus-address	Prometheus抓取端点地址	127.0.0.1
—prometheus-port	Prometheus抓取端点端口	20257

七、使用和测试#

7.1 基本使用#

查看NPD日志#

1
# 查看NPD Pod日志
2
kubectl logs -n kube-system -l app=node-problem-detector -f
3

4
# 查看特定节点的NPD日志
5
kubectl logs -n kube-system node-problem-detector-xxxxx -f

查看节点状态#

1
# 查看节点条件
2
kubectl describe node <node-name>
3

4
# 查看节点事件
5
kubectl get events --field-selector involvedObject.name=<node-name>

查看Prometheus指标#

1
# 启动kubectl proxy
2
kubectl proxy --port=8080
3

4
# 访问Prometheus端点
5
curl http://<node-ip>:20257/metrics

7.2 测试NPD功能#

测试内核死锁检测#

1
# 在一个终端中监控事件
2
kubectl get events -w
3

4
# 在节点上注入测试消息
5
sudo sh -c "echo 'kernel: BUG: unable to handle kernel NULL pointer dereference at TESTING' >> /dev/kmsg"

测试Docker挂起检测#

1
# 在节点上注入测试消息
2
sudo sh -c "echo 'kernel: INFO: task docker:20744 blocked for more than 120 seconds.' >> /dev/kmsg"

八、Remedy Systems (补救系统)#

8.1 概述#

Remedy Systems是一个或多个旨在尝试解决NPD检测到的问题的过程。它们会观察NPD发出的事件和/或节点状况，并采取措施使Kubernetes集群恢复健康状态。

8.2 常见的Remedy Systems#

8.2.1 Draino#

功能：根据标签和节点条件自动排空Kubernetes节点。

工作原理：

监控节点条件和标签
匹配特定条件的节点被标记为不可调度
在可配置的时间后执行排空操作
可以与Cluster Autoscaler结合使用自动终止节点

使用场景：

自动处理硬件故障节点
节点维护自动化
成本优化（自动终止空闲节点）

GitHub：https://github.com/planetlabs/draino

8.2.2 Descheduler#

功能：取消调度违反NoSchedule污点的Pod。

工作原理：

监控节点的污点状态
驱逐违反NoSchedule污点的Pod
确保Pod调度到健康的节点

要求：

启用Kubernetes调度器的TaintNodesByCondition功能

GitHub：https://github.com/kubernetes-sigs/descheduler

8.2.3 Cluster Autoscaler#

功能：自动扩展Kubernetes集群的节点数量。

工作原理：

监控Pod的调度状态
当有Pod无法调度时，自动增加节点
当节点空闲时，自动减少节点

与NPD集成：

自动终止被排空的节点
替换不健康的节点

GitHub：https://github.com/kubernetes/autoscaler/tree/master/cluster-autoscaler

8.2.4 mediK8S#

功能：基于Node Health Check Operator (NHC)构建的自动修复系统。

工作原理：

监控节点状况
使用修复API将修复委托给外部修复程序
支持有条件的修复和手动暂停

GitHub：https://github.com/medik8s

8.2.5 Poison-Pill#

功能：重新启动节点并确保所有有状态的工作负载都得到重新安排。

工作原理：

检测到严重问题时触发
执行节点重启操作
确保工作负载的重新调度

GitHub：https://github.com/medik8s/poison-pill

8.2.6 Cluster API MachineHealthCheck#

功能：负责修复不健康的机器。

工作原理：

监控Machine对象的健康状态
自动替换不健康的Machine
与Cluster API集成

文档：https://cluster-api.sigs.k8s.io/developer/architecture/controllers/machine-health-check

8.3 集成方案#

方案一：NPD + Draino + Cluster Autoscaler#

1
NPD检测问题 → 标记节点为不可调度 → Draino排空节点 → Cluster Autoscaler终止节点 → 自动创建新节点

方案二：NPD + Descheduler#

1
NPD检测问题 → 设置节点污点 → Descheduler驱逐Pod → Pod重新调度到健康节点

方案三：NPD + mediK8S#

1
NPD检测问题 → NHC监控状态 → mediK8S执行修复 → Poison-Pill重启节点

附录#

官方文档：https://github.com/kubernetes/node-problem-detector
Kubernetes文档：https://kubernetes.io/docs/
监控最佳实践：https://sre.google/sre-book/table-of-contents/
社区讨论：https://kubernetes.slack.com/

花日の博客

Node Problem Detector (NPD) 完全指南#

一、NPD简介#

1.1 什么是Node Problem Detector？#

1.2 为什么需要NPD？#

1.3 NPD的应用场景#

1.4 部署方式#

二、核心概念和架构#

2.1 Problem API#

NodeCondition#

Event#

2.2 架构设计#

2.3 工作流程#

三、Problem Daemons详解#

3.1 SystemLogMonitor (系统日志监控)#

功能说明#

支持的配置类型#

检测的问题类型#

配置示例#

3.2 SystemStatsMonitor (系统统计监控)#

功能说明#

监控指标#

配置示例#

3.3 CustomPluginMonitor (自定义插件监控)#

功能说明#

使用场景#

配置示例#

插件脚本示例#

3.4 HealthChecker (健康检查)#

功能说明#

检测的问题类型#

检查机制#

配置选项#

四、Exporters详解#

4.1 Kubernetes Exporter#

功能说明#

工作原理#

配置参数#

HTTP端点#

4.2 Prometheus Exporter#

功能说明#

指标类型#

配置参数#

指标示例#

4.3 Stackdriver Exporter#

功能说明#

配置示例#

五、代码结构分析#

5.1 项目结构#

5.2 核心组件分析#

5.2.1 ProblemDaemon (问题守护进程)#

5.2.2 ProblemDetector (问题检测器)#

5.2.3 ProblemMetricsManager (问题指标管理器)#

5.3 HealthChecker (健康检查器)#

六、部署和配置#

6.1 搭建Kind集群#

6.2 Helm部署#

6.3 配置参数#

启动参数#

七、使用和测试#

7.1 基本使用#

查看NPD日志#

查看节点状态#

查看Prometheus指标#

7.2 测试NPD功能#

测试内核死锁检测#

测试Docker挂起检测#

八、Remedy Systems (补救系统)#

8.1 概述#

8.2 常见的Remedy Systems#

8.2.1 Draino#

8.2.2 Descheduler#

8.2.3 Cluster Autoscaler#

8.2.4 mediK8S#

8.2.5 Poison-Pill#

8.2.6 Cluster API MachineHealthCheck#

8.3 集成方案#

方案一：NPD + Draino + Cluster Autoscaler#

方案二：NPD + Descheduler#

方案三：NPD + mediK8S#