今天凌晨 4 点半上床睡觉,睡前跑大模型推理框架的性能测试,发现失败率仍然在 10% 左右,折腾一晚上仍然没有修复好这个 bug。 捞了日志发给了研发同学后就洗澡睡觉了。 早上 10 点半睁开眼睛,又只睡了 6 个小时,睡眠一直不足。 吃了个饭,洗漱洗漱来公司,趁着午休还有时间,打算写点东西。
这种状态大概持续了 1 个月,不分工作日还是周末,天天都是后半夜。是在上个月末,领导在团队里找人来上海参与封闭式攻坚,找了好几个人都没来,因为这个攻坚要持续很久(目前已经快一个月了,还没看到头)。我也因为家里的事情就没想来,但后来看领导那边压力太大,我就还是跟女王大人商量了一下,坐火车来了上海。
项目是保密的, 不能说细节,但是各个公司都在抢占这里的市场,我们是从大年初三开始的初期开发。按理说已经够卷了,但没想到竞争对手还是比我们更快的上线了第一版产品。最近一个月我们的研发和算法同学做了很多推理加速的改造,因为是非常新的技术,所以大家也是边做边学(研发说半年前 deepseek v2 出来的时候才开始有人大规模的做这种优化)。我来了以后也学习到了很多新的知识,又补充了 AI 领域内的一块知识空白。
最近这 1,2 年研究的开始很难分享出来了,因为研究的东西越来越难, 我自己可能也没搞明白。或者研究的东西越来越垂直,深入。可能只有同样做这个事情的人才能理解,比如现在做的是大模型推理加速框架的测试工作。里面的很多东西,比如 EP、DP、PP、TP、PD 分离,我要测试不同配比之下的性能收益情况和容灾能力,比如 NP/ND 和降级不分离下的测试表现。 虽然我负责测试这些,但我现在也就是懂个大概,而且这些东西的测试过于底层了,是属于大模型推理框架的部分,行业里同样做 AI 测试的人应该也没多少涉及的。
但从这几年做的工作来看,在 AI 产品这个赛道里,对测试人员的要求也越来越高了,起码大厂是这样的。2016 年刚入 AI 这一行的时候,还没要求测试人员懂 AI,即便是到了 AI 开始火的那两年,8 成以上的测试人员也只是对着模型测一测效果和性能,做的事情还比较简单。 属于一下午就能培训个七七八八的水平。而到了现在我们已经开始要求测试人员对 AI 有较为深入的了解了,这样才能测试更加底层和更加全链路的特性。
之前在星球直播的时候,总结过个人划分的几个阶段:
从几年前起很多人应该就有感受,市场对测试人员的要求越来越高了,AI 这一行也一样。早些年的测试只需要会计算个召回,精准,FI,AUC 的就可以入行做 AI 产品的测试了,毕竟那时候大模型还没火起来,智能体也没什么人做。AI 更多用在了推荐、反欺诈、OCR、目标检测等成熟场景里,这些场景虽成熟, 但其实测试方法还是较简单的。 而现在只知道这些的去找工作,如果没有很漂亮的学历和背景,那就很难了。 因为行业中的 AI 产品越来越复杂了, 现在有很多以前测试人员不需要负责的事情也开始交给测试了。
总之,行业在进步,测试人员也得进步了,完全没有办法停止学习。 这种感受最近尤为明显,不努力的去学习,可能连算法同学在说什么都听不懂了。
好了,得干活了,今天就写到这里。 最后再推销一下自己的星球。