场景:
线上业务巡检出现告警,排查问题后发现是 udp 连不上,开始排查问题。。。

排查:
1、未出现消息积压的情况。
2、服务器资源利用率平稳,未达到阈警值。
3、服务日志未出现 error。
4、观察同一时间用户量,用户量达到 190W
5、通过多次请求复现场景,请求 3 次有 1 次连不上。(udp 连不上指的是第一个 send 出去的包拿不到回调)
6、排查连接数的问题,猜测是华为云 lb 的瓶颈,说最大 200W 连接数,可能有误差,这个连接数可能跟 nf_conntrack 那个差不多。

解决方案:
扩容升配。


↙↙↙阅读原文可查看相关链接,并与作者交流