大三 | 滴滴测开实习 · 前码上飞AI 测试
从零搭过一套 AI 自愈测试体系,1.2 万条用例自动跑,人力省 85%。也把智慧农业 SaaS 的回归测试从 10 小时压到 3.2 小时。算法竞赛打过 ACM 拿过铜。
这个博客写 AI+ 测试的实践,踩坑记为主,偶尔复盘。
模型是核心这个我部分同意,没有强模型 Agent 就跑不起来。但说这套代码是"前端工程",我觉得有点看轻了。
传统前端干的活是确定性的——请求进去,结果出来。Claude Code 不一样,它的主循环是个 while true(query.ts 里),每轮都要决定"下一步干嘛"。光是安全检查就写了 2593 行,不是渲染用的,是防止模型一抽风给你来个 rm -rf。上下文还得动态压缩,不然 token 炸掉。还要协调多个 Agent 干活。
你可以说模型是大脑,但 51 万行代码是让这个大脑能动手的。光聪明不行,shell 命令得加沙箱,写文件得校验权限,不然就是个只会嘴炮的 AI。说实话,安全和工程上的坑,有时候比模型不够聪明更致命。
至于是不是故意泄露的,代码里写死了反调试检测(碰到就 process.exit(1)),还有一堆 Feature Flag。我更倾向于是管线事故,不是什么战略开源。不过你说的"借市场之手打造生态"确实有意思,Anthropic 要是真往这个方向走,那确实比藏着掖着高明。
中篇本周五上午更新,测试用例设计篇,权限绕过和 Shell 注入绕过的测试用例会比较硬核 👀
问得好。我承认那些建议确实偏通用——Agent 当时没拿到服务器负载和慢查询日志,给的其实是基于常见模式的推断,不是针对测试之家架构的具体诊断。预期收益那些数字也是经验估算,不是实测跑出来的。
后面接了 APM 和监控数据之后,建议会准得多。再次感谢你的质疑。
首先你的第一个问题:这些模型的显示和特定地区与网络环境强相关的,隔壁 Claude 恨不得封杀所有的中国用户,官方社区也反馈过类似的情况。
其次,你的第二个问题:官方明确说过 DeepSeek API Keys 不支持在 Settings → Models → API Keys 里直接用,用错就会报 403 之类的错误。然后官方也提及过如何添加 DeepSeek,正确方式可以参考该文档:https://forum.cursor.com/t/deepseek-models-in-cursor-through-api-key-or-add-model/147930。
几分钟确实太慢了,大概率不是 agent browser 本身的执行慢 ( Rust 优化理论上 <50ms/步),而是冷启动 + AI 推理 + 网络加载 的多重叠加导致的。针对 “登录 - 点击菜单” 这种固定流程,必须通过封装来 bypass 掉浏览器的实时交互开销。
可以把测试用例写到 md 格式的文件中,直接作为 Prompt 的一环喂给 LLM,LLM 再调用 Agent Browser 去执行即可;
而你提到的 skill 方式本质上是针对于 LLM 的,skill = md + py,这个时候是让 LLM 去执行,而 LLM 通过 Agent Browser 去执行,你这样效率确实更高,提前封装好 skill 的形式是现在的主流写法,但是需要注意的是你 skill 包里面需要包含已经写好的 Agent Browser 脚本,其实这个时候不如前面的人类语言 md 格式便捷,前者是对人类友好,后者是对 AI 友好,后者唯一的优点就是再一次降低了 Token 的消耗,个人推荐前者。
如果是 Trae 环境问题,检查一下你 Trae 的代理和网络设置;或者是插件占用、冲突问题。
如果是 agent-browser 的问题,可能就是没有下载好,清理一下 agent-browser 的缓存,重新安装。
一般来说 Trae 有自己的一套终端,你提到的 Trae 的 “虚拟环境” 中运行 agent-browser 的时候,这个命令行工具的网络请求或进程启动或文件访问被 Trae 的环境 “拦截” 了,导致超时。
你先排查一波问题,看看是在 Trae 还是在 agent-browser:
首先,你应该尝试在 Trae 中打开外部终端,测试 agent-browser 是否可行,如可行那么就是 Trae 环境问题,否则还需要继续排查
移动端 app 领域截至目前,尚未有诸如 Agent Browser 的明星级项目,只能先尝试 Appium 的 Agent 化。
大三 | 滴滴测开实习 · 前码上飞AI 测试
从零搭过一套 AI 自愈测试体系,1.2 万条用例自动跑,人力省 85%。也把智慧农业 SaaS 的回归测试从 10 小时压到 3.2 小时。算法竞赛打过 ACM 拿过铜。
这个博客写 AI+ 测试的实践,踩坑记为主,偶尔复盘。