性能测试工具同一句提示词下，Codex 和 WorkBuddy 生成 JMeter 压测脚本的差异

test_jammy · July 01, 2026 · 229 hits

最近我用同一句提示词对比了两个 Agent 平台在测试任务上的输出。
提示词：
我是一名软件测试工程师，我现在需要对 4 个接口准备编写 JMeter 压测脚本。
这不是标准化评测，只记录一次个人使用结果。但这个例子能看出 Agent 对测试任务理解深度的差异。
Codex 的输出特点
Codex 的结果更接近一套压测方案，而不是简单接口请求。
它做了几件比较关键的事：
数据单独放在 CSV 文件中，实现 CSV 参数化。
生成单接口压测脚本。
生成场景接口压测脚本。
单独生成调试线程组。
场景接口按流量比例划分。
这些设计对 JMeter 压测比较重要。
CSV 参数化可以避免把测试数据写死在脚本或全局变量中，后续数据维护更方便。
单接口压测和场景压测分开，可以分别验证接口容量和业务链路容量。
调试线程组适合在正式压测前先验证参数、鉴权、关联、断言和数据准备。
流量比例可以让场景压测更接近真实业务，而不是简单让所有接口平均跑。
WorkBuddy 的输出特点
WorkBuddy 这次更偏基础脚本生成。
它生成了简单的单接口压测，参数抽离到了全局变量中。
但没有生成：
CSV 参数化数据文件
场景接口压测脚本
独立调试线程组
按业务流量比例划分的场景设计
如果目标只是快速创建单接口请求，它可以起步。
如果目标是准备一次相对完整的压测，它还需要测试人员继续补工程化部分。
我会重点检查哪些能力
对测试工程师来说，Agent 生成 JMeter 脚本时，不只要看它有没有请求，还要看它有没有覆盖这些点：
数据和脚本是否分离
是否区分单接口压测和场景压测
是否有调试线程组
是否考虑鉴权、关联和动态参数
是否有响应断言和业务断言
是否考虑错误率统计和结果报告
是否能按流量比例设计线程组
是否区分调试环境和正式压测环境
这些点决定脚本能不能进入真实工作流。
类似差异也会出现在其他测试任务中
生成测试用例
基础输出通常是正常场景、异常场景、边界场景。
更好的输出会先拆业务规则、对象状态、历史风险和优先级。
生成接口自动化
基础输出可能只是几个请求。
更好的输出会考虑环境变量、鉴权 token、接口依赖、数据清理、断言、日志、报告和重试。
缺陷分析
基础输出可能直接猜原因。
更好的输出会先要求补充日志、请求参数、版本变更、复现路径、影响范围，再给排查路径。
选择 Agent 时的测试视角
我会用几个问题判断一个 Agent 是否适合测试工作：
它有没有把任务拆成可执行流程？
它有没有区分初稿和最终方案？
它有没有考虑维护成本？
它有没有主动指出缺失信息？
它有没有贴近测试工程师的真实工作流？
这次 JMeter 任务里，Codex 更像测试开发搭档，WorkBuddy 更像基础脚本助手。
但这不是对两个平台的终局判断。换任务、换提示词、换上下文，结果可能不同。
对测试人来说，更重要的是建立自己的判断标准：不要只看 Agent 是否能生成答案，要看它能不能把结果往可执行、可维护、可调试、可验证的方向推进。

No Reply at the moment.

需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up。

性能测试工具 同一句提示词下，Codex 和 WorkBuddy 生成 JMeter 压测脚本的差异

性能测试工具 同一句提示词下，Codex 和 WorkBuddy 生成 JMeter 压测脚本的差异

性能测试工具同一句提示词下，Codex 和 WorkBuddy 生成 JMeter 压测脚本的差异

性能测试工具同一句提示词下，Codex 和 WorkBuddy 生成 JMeter 压测脚本的差异