问题背景

排查思路

排查过程

确认客户端类型

rhea-flaskapi-live-sg(sg2|10.xxx:40681)@/workspace$ redis-cli -h redis.xxx.shopee.io -p 10010 -a xxxx@123
redis.xxx.shopee.io:10010> set a 123
(error) MOVED 15495 10.xxx.104:10011

启动 Django Shell 连接 redis

from django_redis import get_redis_connection
conn = get_redis_connection()

直接就一个连接失败

D0F23F45D43E899E71F1B54B84571D04

image-20211130111929339

确认账号密码和端口没问题后,问题同事配置有没验证过,他说直接从网上 cv 的,完全没经过验证。坑啊!!!

修改配置后重新测试

把生产的配置和测试配置比较好,修改了几个地方

信心满满,重启启动django shell测试,结果还是连接上不!这时候心情开始有点糟糕~

冷静,django shell不行,那用python shell直连试试?

Python Shell 直连 redis

image-20211130113526742

一点毛病都没有,直接连上了!

一脸懵逼,这到底是啥问题啊!

不死心,反复修改配置,测试 Django Shell 连接 Redis

结果依然是连接不上。

下班回家过程中的思考

不知不觉已经到了晚上九点,好累,不想卷了。下班回家吧

回家路上整个脑子都被这个问题困扰着。难道密码中含有 @ 符号的 redis 集群,Django 真的连接不上?反复的问自己。

问了其他同事,生产环境是否有其他的 redis 集群可以用来调试。很遗憾,并没有。

要不,我自己创建一个 redis 集群,把密码设置成含有 @ 符号?

可是,自己本地创建 redis 集群好麻烦啊。要本地安装虚拟机,想到一堆配置就直接劝退。

回到家后的纠结

洗完澡,和老婆聊了 1h 左右的视频。已经到 11 点多,准备睡觉?

那是不可能的,带着问题是很难入睡!哎,这个是老毛病了。

突然想到了一个点,最小试错原则。自己搭建本地集群很麻烦,公司又没有多余的集群。

那直接买一个云版的 redis 集群?说干就干,直接从床上起来,打开电脑。

最小试错原则,买云 Redis 集群,而不是自己搭建

这时问题又来了,阿里云还是腾讯云?

鉴于双 11 买了腾讯云 2c 4g 8m 的服务器,只要 199 就能 3 年。

再对比之前买阿里云那个 1c 2g 1m 服务器,3 年也要 100 多。

瞬间对腾讯云好感倍增,决定先买腾讯云。

买腾讯云 redis 集群

一顿操作,发现腾讯云是真的难用:

最最最重要,给把实例绑定了安全组后,外网还是无法访问???(不管了,反正我就是很生气)

买阿里云 redis 集群

对腾讯云太失望了,不得不把最后一根稻草压在阿里云身上。

所幸,阿里云没有让我失望!

咔咔咔,一顿操作:

image-20211130120920961

image-20211130121327756

image-20211130121524863

密码中含有 @ 符号,但连接一点毛病都没有!!!

至此,问题终于解决了!!!

我已经迫不及待明天去公司验证,但回过头一看,已经是深夜一点半。

自言自语的说了一句:"睡吧,卷王"

第二天去公司验证

rhea-flaskapi-live-sg(sg2|xxxx:26863)@/workspace$ python3.8 manage.py shell --settings=rhea.settings.prod
rhea.settings.prod
Python 3.8.7 (default, Oct  1 2021, 14:58:33)
[GCC 5.4.0 20160609] on linux
Type "help", "copyright", "credits" or "license" for more information.
(InteractiveConsole)
>>> from django_redis import get_redis_connection
>>> conn = get_redis_connection()
>>>>conn.get("rhea:access_token:abc")
'huacai.li@shopee.com'

经过对比,发现配置只需要生产的配置仅需要在测试的配置上加多一个:

image-20211130131601844

修复最磨人的 bug,往往仅需要一点小小的改动~

为什么测试环境没报错了呢???

因为测试环境的 redis 集群不需要密码

总结


↙↙↙阅读原文可查看相关链接,并与作者交流