专栏文章记录一次 K8S 性能问题排查

孙高飞 · 2023年03月27日 · 最后由孙高飞回复于 2023年03月29日 · 16539 次阅读

问题现象

最近我们的测试环境中频繁有节点因为内存被耗尽而崩溃，由于每次都是发生在非工作时间（过一段时间内存就恢复了），所以我们一直没定位到具体什么原因导致的，查看监控系统也没找到具体是哪个容器有内存使用的异常。于是当今天早上某个测试环境发出了节点告警并显示内存不足后，我就赶紧登陆到服务器上看到底是哪里出问题了，整个排查的过程比较有意思，所以我打算在这里记录一下。如下图：

关于这个监控组件我之前写过一篇文章：https://testerhome.com/articles/32478K8S 内部的 watch 机制来订阅相关事件并判断是否出现异常。，是利用根据这个告警内容可以知道该节点的 kubelet 已经申请不到足够的内存，这导致该节点有崩溃的风险。

K8S 驱逐策略的问题

登陆到该节点首先通过 kubectl describe node 查看该节点的所有 event：

通过 event 发现 K8S 在过去一段时间内已经开启了驱逐策略，把当前节点的一些低优先级 Pod 驱逐到了其他节点，这通常都是节点内存不足导致的，查看 linux 内核日志也发现了很多 oom kill 记录：

这里的第一个问题就是 K8S 的驱逐策略已经触发的情况下，为什么还会导致节点因为内存不足而崩溃（k8s 的驱逐策略就是为了防止内存占满而节点崩溃的，它会在内存到达一定的值后，就开始把当前节点的 pod 陆续调度到其他节点上来平衡负载），于是查看节点 kubelet 的启动参数，看一下驱逐策略是如何配置的：

可以看到 K8S 软驱逐阈值设定在内存低于 12% 触发，硬驱逐则是内存低于 500M 触发，于是这里第一个问题就出现了，首先介绍一下软驱逐和硬驱逐：

软驱逐：当系统内存低于指定阈值后，kubelet 开始逐步的把低优先级 Pod 驱逐到其他节点中。但这个驱逐是比较柔和的，首先需要系统内存持续低于 12% 一定的时间后才开始驱逐（这是为了防止由于一些临时任务等原因导致的内存波动，所以当内存保持一段时间后才开始驱逐是比较合理的），并且它的驱逐速度也是比较慢的，固定时间内只驱逐固定数量的 pod。所以软驱逐的效率较低，当内存涨的较快时，驱逐的效率无法满足内存的增长。所以才需要硬驱逐来兜底。
硬驱逐：当系统内存低于硬驱逐的阈值后，kubelet 就会开始把低优先级 pod 驱逐到其他节点中，与软驱逐不同的是硬驱逐会比较暴力，不会等待内存持续一定时间才开始，而是立刻开始驱逐。

按理说有硬驱逐在，很难会出现内存被打满，节点崩溃的情况。但根据 kubelet 的硬驱逐，我们发现硬驱逐的参数配置只有 500M。这个值应该是过低了，这里需要注意的是这个 500M 是 k8s 计算的 500M 而不是我们在 free 命令中看到的 500M.（K8S 是通过 cgroups 来计算当前节点的可用内存的, 比如要计算一个容器到底占用了多少内存，则主要是通过 working_set+active_file 作为该容器的内存总和，而没有计算 inactive_file，所以下面那个脚本是总内存减去 memory_total_inactive_file 来计算的），这里有一个以 K8S 为视角计算内存的脚本：

#!/bin/bash
#!/usr/bin/env bash

# This script reproduces what the kubelet does
# to calculate memory.available relative to root cgroup.

# current memory usage
memory_capacity_in_kb=$(cat /proc/meminfo | grep MemTotal | awk '{print $2}')
memory_capacity_in_bytes=$((memory_capacity_in_kb * 1024))
memory_usage_in_bytes=$(cat /sys/fs/cgroup/memory/memory.usage_in_bytes)
memory_total_inactive_file=$(cat /sys/fs/cgroup/memory/memory.stat | grep total_inactive_file | awk '{print $2}')

memory_working_set=${memory_usage_in_bytes}
if [ "$memory_working_set" -lt "$memory_total_inactive_file" ];
then
    memory_working_set=0
else
    memory_working_set=$((memory_usage_in_bytes - memory_total_inactive_file))
fi

memory_available_in_bytes=$((memory_capacity_in_bytes - memory_working_set))
memory_available_in_kb=$((memory_available_in_bytes / 1024))
memory_available_in_mb=$((memory_available_in_kb / 1024))

echo "memory.capacity_in_bytes $memory_capacity_in_bytes"
echo "memory.usage_in_bytes $memory_usage_in_bytes"
echo "memory.total_inactive_file $memory_total_inactive_file"
echo "memory.working_set $memory_working_set"
echo "memory.available_in_bytes $memory_available_in_bytes"
echo "memory.available_in_kb $memory_available_in_kb"
echo "memory.available_in_mb $memory_available_in_mb"

所以也许根据 K8S 计算的内存还有 500M 以上，但是从 free 命令上看内存已经所剩无几了。这也是为什么有硬驱逐在，节点的内存仍然被占满了。所以这里的第一个问题是需要运维同学重新调整硬驱逐的阈值。

排查引起内存异常的进程

首选通过 top 命令按内存排序，发现进程占用内存最多的是 updatedb 这个进程：

这里需要这个进程是从哪里来的，当时的第一个反应是这个进程是从某个容器中启动的。所以通过/proc/1337531 看这个进程的 cwd 和 exe，发现 cwd 里指向了一个目录，就是 pod（e13c3afb-d0a2-425e-9296-50ae995d0603）：

根据截图，怀疑可能是这个 pod 引起的，所以根据 docker 和 kubectl 命令定位到了该 pod，但是很奇怪的是，这个 pod 的容器配置了资源限制（limit）：

所以如果这个进程真的出自这个容器，那么它应该受到 limit 的限制，不可能会使用 18G 内存这么多，所以我之前的猜测可能是错的。于是再次查看 cwd，发现所指的目录发生了变化：

由此我应该对 cwd 目录所有误解，我在之前查找的资料中说 cwd 指向的是该进程的工作目录，所以我理所当然的认为它指向了某个 pod 的目录，那么该进程就是属于该 pod 的，但显然我理解错了。并且如果这个进程是来自这个 pod 中的容器的，那为什么 cgroups 没有限制住。然后我通过 ps -e -o pid,cmd,comm,cgroup 来尝试查询这个进程的 cgroups，发现它根本没落到 k8s 的 pod 所在的 cgroups 目录里：

正常的进程，如果它是启动在容器中的话，那么它的 cgroups 一定会落在：/sys/fs/cgroup/memory/kubepods 目录下，如下图：

所以这里说明，该进程并不是启动在容器中，于是观察该进程的 cgroups 的 task，发现里面除了该进程外，还有一些其他进程。再经过针对这些进程进行查询，以及在网络上根据 updatedb 为关键字进行查询。发现 updatedb 是 linux 为 locate 命令而更新数据库的定时任务：

查询该定时任务的配置：

最后确定操作系统开了 linux locate，为了维护 locate 数据库，所以每天要执行一个定时任务来运行 updatedb 命令。我们的环境里挂载了 ceph 存储，文件非常多。导致了这个命令运行的非常慢并且占用内存非常高。我看网络上给的建议是如果对 locate 命令没有强需求，就直接禁掉。

最后方案

在跟研发同学反馈后，更新产品部署文档，后面做私有化部署时会要求认为的删除该定时任务，避免再次出现性能问题。当然后遗症是无法使用 locate 命令了

10 个赞

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！

打赏支持

共收到 7 条回复时间点赞

test_xiaowang #8 · 2023年03月29日

优秀！！！性能没怎么接触过，博主方便讲解下性能的学习思路吗？

陈恒捷 #2 · 2023年03月29日

很详尽的排查过程，也学习了 k8s 一些相关知识，做性能排查还是必须得懂整体原理，以及怎么通过日志等方式把原理中的每个模块拆解验证呀。

受教了。

孙高飞 #6 · 2023年03月29日 Author

对

test_xiaowang 回复

没专门学过性能，其实都是针对 K8S 和 linux 的学习以后，自然而然的就有排查思路了。所以还是要熟悉我们测试的产品的原理才行。

5楼已删除

开普敦人 #4 · 2023年03月29日

大佬我问问你，站你的视角，有职业瓶颈嘛？？

孙高飞 #3 · 2023年03月29日 Author 2 个赞

对

开普敦人回复

有啊，我现在就在瓶颈了，今年 36 岁了，技术职级已经到了我能触及的天花板了。现在我自己的感觉就是即便再去学技术，也升不到下一个级别了。再往上升需要产出有足够影响力的东西，可能是跨团队甚至跨部门的东西，而这些东西不是单打独斗能搞出来的，需要团队和业务的加持，但我当前的业务和团队都不够分量。所以受业务限制，我即便再去学习新的技术或者再深挖当前的技术，都很难升上去了。以前没太大感觉，觉得有技术哪里都行，现在深刻的感受到业务和团队的重要性。

昨天有雨 #7 · 2023年03月29日

阿里云的 ACK 新节点加入集群如果修改了某些内核参数, 会出现访问 pod 里的服务很慢的问题,响应延迟会增长好几倍. 不知道 TKE 是否存在这个问题, 或者高飞大佬有无遇到过类似的情况,这种问题的排查思路是什么样的?

孙高飞 #7 · 2023年03月29日 Author

对

昨天有雨回复

我也没碰见过这种情况~ 这种问题的排查我感觉挺难的，因为涉及到 linux 内核了，我也没正经八本的学过内核的东西。都是零零散散的。我能想到的也就是在有问题的 pod 里开个 tcpdump 实时监控，然后发请求看延迟，如果是网络问题，它可能会延迟个几秒 tcpdump 才能监控到，说明网络有问题。但具体要我排查到哪个内核参数，我也做不到~ 内核的东西了解的还是少。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

专栏文章 记录一次 K8S 性能问题排查

专栏文章 记录一次 K8S 性能问题排查

问题现象

K8S 驱逐策略的问题

排查引起内存异常的进程

最后方案

专栏文章记录一次 K8S 性能问题排查

专栏文章记录一次 K8S 性能问题排查