AI测试 agent 智能体测试工作该如何开展

AdrianBrooks · 2025年11月03日 · 最后由 duckweeds 回复于 2025年11月12日 · 4459 次阅读

我们部门最近几年一直在做大模型相关的应用，做了好几个产品但是都没有落地很多订单，最近开始流行 agent，我们的前后端，包括我们测试也收到通知，后续将会往 Agent 开发方向去做了，那么后续开发出来的应用，应该怎么进行测试呢，我理解可能从几个方面：
1.接口测试，接口主要由算法来开发了，之前后端主要做接口转发，测试也主要测试的转发接口，那么后续这个环节就是和算法直接联调；
2.提示词测试，包括提示词注入，提示词安全相关的测试；
3.功能测试，但是现在都是用 dify 或者 coze 来做工作流，那么页面层面的交互之类的 bug 似乎也可以免掉了；
似乎后面测试的工作量似乎会少很多，那么作为一名测试，后续的竞争力在哪呢，工作核心应该放在哪里呢

1 个赞

共收到 3 条回复时间点赞

孙高飞 #1 · 2025年11月03日 9 个赞

正经八本的测试 Agent 工作量是非常大的。楼主感觉没什么可以测试的那可能是没有人带你吧，当然可能也是你们使用 Agent 的场景比较简单导致的。毕竟产品主要是围绕着 Agent 来实现的，与只是某个小功能引入了 Agent，这两者区别还是很大的。

正经测智能体产品的人，会涉及到各种大模型的效果评测和性能评测工作。评测方面除了各种大模型外，再比如我们的产品里，文档解析，文档拆分，embedding 与检索，意图识别，RAG，工作流，还有 Agent 里对接的几百个工具（多数是自建的，当然也有很多公开的 MCP 的工具）。

性能测试方面各种大模型推理加速策略，知识库的性能，端到端的对话性能，其实工作量是很大的。我们测的这个产品有 10 多个人来测。楼主可以翻翻我之前写的帖子大概了解一下。

要说后续竞争力在哪里？我是这么想的，人工智能的测试，这是一个理解成本远高于执行成本的领域。也就是实际测试的时候，你会觉得测试脚本也好，用例执行也好，难度不比其他类型的测试高多少。但理解人工智能的业务和流程还有测试的方法论，则成本非常高。举个例子，咱们都是在智能体领域里的，我问楼主 Agent 上下文工程的四大策略是什么？要如何进行测试？楼主在不去网络上搜索的前提下，能否回答上来。其实对于这个问题，即便在智能体领域里测试了相当长的一段时间的测试人员，可能都不知道上下文工程是什么。而这就是竞争力了，不知道楼主是否能理解。因为智能体在用户角度上就是个对话框，用户问问题，智能体回答问题或调用相关工具回答用户问题。界面交互不复杂，一问，一答。隐藏在水面下的逻辑十分庞大。

不知道大家有没有用 AI 辅助写测试代码，比如下载个 cursor。如果我们知道上下文工程这个东西。就能明白 cursor 为什么会设计 cursor rules 文件，为什么会有 past chat 这个指令。说白了这两个都是在遵循 Agent 上下文工程中 4 大策略中的 "压" 和 "写" 这两个策略。只有理解了底层运行逻辑，才能理解产品设计逻辑，这也是 AI 这个领域中独特的地方。其他领域是通过产品上层逻辑，来拆解下层逻辑。但 AI 是不了解底层逻辑，你都不知道产品这么设计在干什么。

以上都是个人见解，不杠~ 如果觉得我说的不对~ 那就当看个笑话就好了~

白痴一号 #2 · 2025年11月03日

我最近也开始在准备测这东西，有点懵，应用下面的逻辑特别多

duckweeds #3 · 2025年11月12日

功能测试使用 dify 效果好吗？我们公司研发在用 dify，然后领导说让我们测试团队也要往 ai 测试方向靠拢，最近在看资料，这方面的资料太少了，不知道测试的工作流咋画。公司的需求也用 ai 写的，质量很差

需要登录后方可回复, 如果你还没有账号请点击这里注册。