性能测试工具 同一句提示词下,Codex 和 WorkBuddy 生成 JMeter 压测脚本的差异

test_jammy · July 01, 2026 · 229 hits

最近我用同一句提示词对比了两个 Agent 平台在测试任务上的输出。
提示词:
我是一名软件测试工程师,我现在需要对 4 个接口准备编写 JMeter 压测脚本。
这不是标准化评测,只记录一次个人使用结果。但这个例子能看出 Agent 对测试任务理解深度的差异。
Codex 的输出特点
Codex 的结果更接近一套压测方案,而不是简单接口请求。
它做了几件比较关键的事:
数据单独放在 CSV 文件中,实现 CSV 参数化。
生成单接口压测脚本。
生成场景接口压测脚本。
单独生成调试线程组。
场景接口按流量比例划分。
这些设计对 JMeter 压测比较重要。
CSV 参数化可以避免把测试数据写死在脚本或全局变量中,后续数据维护更方便。
单接口压测和场景压测分开,可以分别验证接口容量和业务链路容量。
调试线程组适合在正式压测前先验证参数、鉴权、关联、断言和数据准备。
流量比例可以让场景压测更接近真实业务,而不是简单让所有接口平均跑。
WorkBuddy 的输出特点
WorkBuddy 这次更偏基础脚本生成。
它生成了简单的单接口压测,参数抽离到了全局变量中。
但没有生成:
CSV 参数化数据文件
场景接口压测脚本
独立调试线程组
按业务流量比例划分的场景设计
如果目标只是快速创建单接口请求,它可以起步。
如果目标是准备一次相对完整的压测,它还需要测试人员继续补工程化部分。
我会重点检查哪些能力
对测试工程师来说,Agent 生成 JMeter 脚本时,不只要看它有没有请求,还要看它有没有覆盖这些点:
数据和脚本是否分离
是否区分单接口压测和场景压测
是否有调试线程组
是否考虑鉴权、关联和动态参数
是否有响应断言和业务断言
是否考虑错误率统计和结果报告
是否能按流量比例设计线程组
是否区分调试环境和正式压测环境
这些点决定脚本能不能进入真实工作流。
类似差异也会出现在其他测试任务中
生成测试用例
基础输出通常是正常场景、异常场景、边界场景。
更好的输出会先拆业务规则、对象状态、历史风险和优先级。
生成接口自动化
基础输出可能只是几个请求。
更好的输出会考虑环境变量、鉴权 token、接口依赖、数据清理、断言、日志、报告和重试。
缺陷分析
基础输出可能直接猜原因。
更好的输出会先要求补充日志、请求参数、版本变更、复现路径、影响范围,再给排查路径。
选择 Agent 时的测试视角
我会用几个问题判断一个 Agent 是否适合测试工作:
它有没有把任务拆成可执行流程?
它有没有区分初稿和最终方案?
它有没有考虑维护成本?
它有没有主动指出缺失信息?
它有没有贴近测试工程师的真实工作流?
这次 JMeter 任务里,Codex 更像测试开发搭档,WorkBuddy 更像基础脚本助手。
但这不是对两个平台的终局判断。换任务、换提示词、换上下文,结果可能不同。
对测试人来说,更重要的是建立自己的判断标准:不要只看 Agent 是否能生成答案,要看它能不能把结果往可执行、可维护、可调试、可验证的方向推进。

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up