AI测试 agent 智能体测试工作该如何开展

AdrianBrooks · 2025年11月03日 · 最后由 白痴一号 回复于 2025年11月03日 · 344 次阅读

我们部门最近几年一直在做大模型相关的应用,做了好几个产品但是都没有落地很多订单,最近开始流行 agent,我们的前后端,包括我们测试也收到通知,后续将会往 Agent 开发方向去做了,那么后续开发出来的应用,应该怎么进行测试呢,我理解可能从几个方面:
1.接口测试,接口主要由算法来开发了,之前后端主要做接口转发,测试也主要测试的转发接口,那么后续这个环节就是和算法直接联调;
2.提示词测试,包括提示词注入,提示词安全相关的测试;
3.功能测试,但是现在都是用 dify 或者 coze 来做工作流,那么页面层面的交互之类的 bug 似乎也可以免掉了;
似乎后面测试的工作量似乎会少很多,那么作为一名测试,后续的竞争力在哪呢,工作核心应该放在哪里呢

共收到 2 条回复 时间 点赞

正经八本的测试 Agent 工作量是非常大的。 楼主感觉没什么可以测试的那可能是没有人带你吧,当然可能也是你们使用 Agent 的场景比较简单导致的。毕竟产品主要是围绕着 Agent 来实现的,与只是某个小功能引入了 Agent,这两者区别还是很大的。

正经测智能体产品的人,会涉及到各种大模型的效果评测和性能评测工作。评测方面除了各种大模型外,再比如我们的产品里,文档解析,文档拆分,embedding 与检索,意图识别,RAG,工作流,还有 Agent 里对接的几百个工具(多数是自建的,当然也有很多公开的 MCP 的工具)。

性能测试方面各种大模型推理加速策略,知识库的性能,端到端的对话性能,其实工作量是很大的。 我们测的这个产品有 10 多个人来测。 楼主可以翻翻我之前写的帖子大概了解一下。

要说后续竞争力在哪里? 我是这么想的, 人工智能的测试,这是一个理解成本远高于执行成本的领域。 也就是实际测试的时候,你会觉得测试脚本也好, 用例执行也好, 难度不比其他类型的测试高多少。 但理解人工智能的业务和流程还有测试的方法论,则成本非常高。 举个例子,咱们都是在智能体领域里的,我问楼主 Agent 上下文工程的四大策略是什么?要如何进行测试? 楼主在不去网络上搜索的前提下,能否回答上来。其实对于这个问题, 即便在智能体领域里测试了相当长的一段时间的测试人员,可能都不知道上下文工程是什么。 而这就是竞争力了,不知道楼主是否能理解。因为智能体在用户角度上就是个对话框,用户问问题,智能体回答问题或调用相关工具回答用户问题。 界面交互不复杂,一问,一答。 隐藏在水面下的逻辑十分庞大。

不知道大家有没有用 AI 辅助写测试代码, 比如下载个 cursor。 如果我们知道上下文工程这个东西。 就能明白 cursor 为什么会设计 cursor rules 文件, 为什么会有 past chat 这个指令。 说白了这两个都是在遵循 Agent 上下文工程中 4 大策略中的 "压" 和 "写" 这两个策略。 只有理解了底层运行逻辑, 才能理解产品设计逻辑, 这也是 AI 这个领域中独特的地方。 其他领域是通过产品上层逻辑,来拆解下层逻辑。 但 AI 是不了解底层逻辑, 你都不知道产品这么设计在干什么。

以上都是个人见解, 不杠~ 如果觉得我说的不对~ 那就当看个笑话就好了~

我最近也开始在准备测这东西,有点懵,应用下面的逻辑特别多

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册