FunTester Prompt 不够了，AI 产品更需要测试思维

FunTester · 2026年05月22日 · 最后由 FunTester 回复于 2026年06月16日 · 5393 次阅读

过去一年，很多 AI 产品团队都有过类似经历。刚开始做 AI 功能时，大家最关心的是 Prompt，一个提示词改得好不好，往往直接决定 demo 是否惊艳、回答是否顺滑、效果是否像一个真正可用的产品功能。

于是团队会花大量时间调 Prompt：这个词要不要更明确，角色设定是不是不够强，输出格式要不要约束得更死，要不要加几个 few-shot 示例，系统提示词是不是应该更长一点。这些努力当然有价值，很多 AI 产品早期能跑起来，靠的就是 Prompt 工程带来的快速试错能力。

但随着产品真正进入线上环境，一个问题会越来越明显：Prompt 已经不够了。不是说 Prompt 不重要，而是它无法独自承担 AI 产品的质量责任。

Prompt 解决的是如何让模型这一次答得更好，AI 产品真正需要解决的是如何证明系统在大量真实场景下持续变好。这两个问题之间，隔着一整套评测工程化能力。

Prompt 不够用

Prompt 最大的价值，是让团队可以快速探索模型能力。一个好的 Prompt，确实能显著改善输出质量，让模型更守格式、更贴近业务语境、更少废话，也更像一个具体场景里的产品功能。所以在 AI 产品早期，Prompt 是非常有效的工具。

问题在于，Prompt 很容易给团队一种错觉：只要继续调 Prompt，产品质量就会持续变好。但真实情况往往不是这样。

很多时候，一个 Prompt 修改之后，团队会拿几个熟悉的 case 试一下。如果这几个 case 表现更好了，大家就会觉得这版 Prompt 优化成功了。可问题是，这几个 case 变好了，不代表整体质量变好了。常见问题减少了，不代表长尾问题没有增加；回答更详细了，不代表事实更准确了；格式更稳定了，不代表用户体验更好了；模型更聪明了，不代表产品更可靠了。

AI 产品最麻烦的地方在于，它的输出不是简单的确定性逻辑。你改了一句话，可能会影响模型在很多场景下的行为。有些影响是正向的，有些影响是负向的，更多时候，影响是你一开始看不见的。

这就是为什么只靠 Prompt 调参，很快会进入瓶颈。它能帮你优化局部体验，却很难回答一个更关键的问题：这次改动到底让产品整体变好了，还是只是让手里的几个样例变好了。

如果团队回答不了这个问题，AI 产品迭代就会变成一种经验驱动的试运气。看起来一直在优化，实际上没有人知道质量曲线到底往上走，还是在原地震荡。

所以，Prompt 的问题不是没用，而是它只能承担探索阶段的工作。当产品进入稳定交付阶段，真正重要的就不再只是怎么写 Prompt，而是怎么验证 Prompt、模型、数据和工具链改动之后，系统整体是否仍然可靠。

质量不可见

传统软件的质量问题，通常比较容易定义。一个按钮点不动，就是 bug；一个接口返回错了，就是 bug；一个字段计算不对，就是 bug；一个流程走不通，也是 bug。虽然传统软件也很复杂，但它至少有一个前提：大多数情况下，输入、逻辑和输出之间的关系是确定的。

AI 产品不一样。AI 产品的质量问题，很多时候不是明显坏了，而是看起来还行。用户问了一个业务问题，模型给出了一段流畅回答，语气自然、结构完整，看起来很专业，但里面某个关键事实是错的。或者模型正确回答了主问题，却遗漏了一个重要限制条件，如果用户不了解背景，可能根本意识不到它漏了东西。

再比如，同一个任务换一种问法，模型表现就明显下降；同一个 Prompt 换一个模型版本，原本稳定的格式突然变差；同一个 RAG 系统更新知识库之后，检索命中率提升了，但回答开始变得冗长、保守，甚至自相矛盾。

这些问题都不是简单的功能能不能跑。它们更像是行为质量问题：模型有没有理解任务，回答是否准确，信息是否完整，格式是否可控，引用是否可靠，工具调用是否正确，安全边界是否稳定，在真实用户表达下是否仍然有效。

这类问题有一个共同特点：单靠肉眼试几个样例，很难判断整体质量。这就是 AI 产品真正难的地方。

它不是没有质量问题，恰恰相反，它到处都有质量问题。只是很多质量问题被自然语言的流畅性遮住了。大模型很擅长生成看起来正确的内容，这会让 AI 产品出现一种特殊风险：产品已经失败了，但失败方式并不显眼。

传统软件失败时，用户可能看到报错；AI 产品失败时，用户看到的可能是一段很自信、很完整、很像答案的错误内容。这也是为什么 AI 产品不能只做功能测试。

你不能只验证系统能不能返回结果、接口有没有成功、页面有没有展示、流程有没有结束。你还必须验证返回的结果到底好不好，在什么场景下好，在什么场景下坏，这次更新之后哪些能力提升了，哪些能力退化了，退化是否可以接受，能不能在上线前发现。

换句话说，AI 产品的核心质量挑战，是质量不可见。而评测工程化的第一件事，就是让质量变得可见。

从感觉到验证

很多团队在 AI 产品早期，评估效果靠的是感觉。PM 试几个问题，工程师跑几个样例，老板看一次 demo，用户反馈几条 bad case，然后大家凭经验判断这版是不是更好。这种方式在探索阶段可以接受，因为那个阶段目标是快速找到方向。

但一旦产品开始承载真实业务，这种方式就不够了。感觉不可重复，今天试的 case 和明天试的 case 不一样，判断结果就会变；感觉不可比较，A 版本和 B 版本到底谁更好，很容易陷入争论；感觉不可追溯，这次改动影响了哪些能力，团队很难系统复盘；感觉也不可规模化，当场景变多、用户变多、模型链路变复杂，靠几个人手动试用根本覆盖不过来。

所以，AI 产品要想持续迭代，必须从感觉判断转向可重复验证。所谓评测工程化，本质上就是建立这样一个机制：每一次改动之后，团队都能用相对稳定的方法，判断系统整体质量有没有变好。

这套机制至少包含四个要素。

数据集

没有数据集，就没有稳定的评测对象。AI 产品需要沉淀一批代表真实场景的样本，包括核心用户问题、高频业务任务、历史失败案例、边界输入、复杂表达、安全风险样本和高价值业务场景。

这些样本不是随便找几个问题放在那里。它们应该代表产品真正要解决的问题：AI 客服产品要有真实用户咨询样本，AI 数据分析产品要有真实业务问题和对应数据表，AI 编程助手要有真实代码任务和测试用例，企业知识库助手要有真实员工查询和权威答案来源。

数据集的价值在于，它把抽象的产品质量落到了具体样本上。从此以后，团队讨论的不再是我感觉这版好一点，而是这版在核心场景集上提升了多少，在历史失败集上是否复发，在边界样本上有没有退化。

这是 AI 产品质量管理的地基。

基准

有了数据集，还需要判断标准。否则同一个回答，有人觉得好，有人觉得不好；同一个模型版本，有人认为更专业，有人认为更啰嗦；同一次改动，有人看到准确率提升，有人看到体验下降。

所以团队需要定义基准：什么叫回答正确，什么叫任务完成，什么叫引用可靠，什么叫格式合格，什么叫安全拒答正确，什么叫用户体验可接受。不同产品的基准不一样，客服产品可能关注解决率、误导率、转人工率；搜索问答产品可能关注事实准确性、引用相关性、覆盖完整性；Agent 产品可能关注任务完成率、工具调用成功率、步骤成本；内容生成产品可能关注风格一致性、结构完整性、可编辑性；代码生成产品可能关注测试通过率、编译成功率、代码安全性。

好的基准不是为了得到一个漂亮分数，而是为了让团队知道：每一次改动到底带来了什么收益，又付出了什么代价。

回归

AI 产品最常见的问题是修好 A，弄坏 B。Prompt 更严格了，幻觉减少了，但拒答变多了；模型升级了，推理更强了，但格式遵循变差了；检索优化了，召回更多了，但回答变得更长、更散；Agent 步骤减少了，速度变快了，但任务完成率下降了；安全策略加强了，风险降低了，但正常请求也被误伤了。

如果没有回归测试，这些问题往往要上线后才会暴露。评测工程化要求团队把历史问题沉淀下来，每次出现 bad case，不只是临时修掉，而是把它加入评测集。

这样下一次改 Prompt、换模型、更新知识库、调整工具链时，系统能自动检查：这个问题有没有复发，老能力有没有退化，关键路径还能不能跑通，护栏指标有没有被破坏。

回归的意义不是追求永远不出错，而是让团队不要反复掉进同一个坑。

自动评测

如果每次改动都要人工完整评审，评测体系很快会变成瓶颈。所以评测必须逐步自动化。有些问题可以用规则判断，比如 JSON 是否合法、字段是否完整、长度是否超限、是否包含引用、格式是否符合要求。

有些问题可以用程序判断，比如代码能不能运行、SQL 能不能执行、计算结果是否正确、工具参数是否合法、API 调用是否成功。还有些问题可以用模型辅助判断，比如回答是否相关、信息是否完整、是否遵守语气、是否存在明显幻觉、是否符合评分标准。当然，高风险、高主观的问题仍然需要人工抽检。

自动评测不是为了完全替代人，它的价值是把大量重复判断自动化，让人从逐条打分转向定义标准、校准样本、分析失败原因。

当数据集、基准、回归和自动评测连在一起，AI 产品才真正具备持续迭代能力。团队每一次改动都不再只是试试看，而是可以进入一个更稳定的循环：修改系统、运行评测、比较结果、定位退化、修复问题、沉淀样本、再发布。

这就是评测工程化。

最终是工程问题

很多团队一开始会低估评测工程化的重要性，原因很简单：早期 AI 产品看起来没那么复杂。一个模型、一个 Prompt、几个示例、一个简单界面，最多再加一点 RAG，这种阶段确实可以靠少数人的经验推进。大家一起试一试，觉得效果不错，就可以继续往前走。

但只要产品开始进入真实场景，复杂度会迅速上升。用户输入会变复杂，业务场景会变多，知识库会持续更新，模型版本会不断变化，Prompt 会被频繁调整，RAG 策略会迭代，工具调用会增加，权限和安全边界会变复杂，成本、延迟、稳定性都要一起考虑。

这个时候，AI 产品已经不再是一个 Prompt 调一个模型。它变成了一个复杂系统，而复杂系统不能靠手工感觉来管理质量。

这和传统软件的发展路径很像。早期软件项目，也可以靠开发者自己点点页面、跑几个流程；但当系统变复杂、团队变大、发布频率变高，软件工程最终一定会走向测试自动化、持续集成、持续交付。不是因为团队喜欢流程，而是因为复杂系统如果没有工程化质量保障，就无法稳定迭代。

AI 产品也是一样。AI 产品需要自己的 Eval Pipeline：每次 Prompt 改动，要评测；每次模型升级，要评测；每次知识库更新，要评测；每次工具链调整，要评测；每次安全策略变化，也要评测。否则上线就会变成赌博。

更关键的是，AI 产品的质量变量比传统软件更多。传统软件主要验证代码逻辑，AI 产品还要验证模型行为、语义理解、生成质量、上下文处理、检索质量、工具调用、安全边界和用户体验。这些东西无法只靠单元测试覆盖，它们需要一套新的质量体系。

这也是为什么评测工程化最终会成为 AI 产品团队的基础设施。它不是高级团队才需要的锦上添花，而是 AI 产品从 demo 走向生产环境之后，必然要补上的能力。

没有评测工程化，团队会陷入一种低效循环：线上发现问题，临时改 Prompt，修好一个 case，上线后又坏另一个 case，继续人工排查，继续临时修补。看似一直在迭代，实际上是在重复救火。

有了评测工程化，团队才能进入另一种循环：发现问题，沉淀样本，明确标准，系统验证，防止复发，持续优化。前者是经验驱动，后者是工程驱动。

这就是 AI 产品成熟度的分界线。

分水岭是 Eval 系统

未来，Prompt 当然仍然重要。好的 Prompt 仍然能提升模型表现，好的上下文设计仍然能改善用户体验，好的任务拆解仍然能降低模型出错概率。

但 Prompt 本身很难成为长期护城河。因为 Prompt 会越来越容易被复制，模型能力会越来越接近，通用技巧会越来越普及，很多今天看起来高级的 Prompt 方法，明天可能就会变成默认能力。

真正难复制的是另一类东西：真实业务场景里积累下来的评测数据，团队对质量标准的定义，历史失败案例的沉淀，线上反馈到离线评测集的闭环，模型升级前后的系统比较能力，持续发现退化、定位问题、稳定发布的工程体系。

这些东西不会因为换一个模型就自动获得，也不会因为多写几个 Prompt 就自然出现。它们需要团队在真实产品迭代中一点点建设。

这也是为什么 AI 产品竞争到最后，分水岭不会只是谁更会写 Prompt。更关键的问题会变成：谁更知道自己的产品在哪些场景下有效，谁更快发现系统在哪些地方退化，谁更能判断一次改动到底值不值得上线，谁更能把线上失败转化成下一轮质量资产，谁更能稳定地利用新模型，而不是被新模型的不确定性反复拖累。

AI 产品的长期竞争力，不是来自一次漂亮的 demo，而是来自持续、稳定、可验证的质量提升。所以，Prompt 工程不会消失，但它会被放进更大的体系里，这个体系就是评测工程化。

Prompt 解决的是局部优化，评测工程化解决的是持续进化。Prompt 让模型在某些样例上表现更好，评测工程化让团队知道产品是否真的变好。

当 AI 产品越来越深入真实业务，真正重要的能力会从调出一个好结果，转向证明系统持续产生好结果。

这就是为什么 AI 产品最终都会走向评测工程化。因为没有它，AI 产品只能靠感觉迭代；有了它，AI 产品才开始拥有真正的工程确定性。

FunTester 名片｜万粉千文，百无一用

1 个赞

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！

打赏支持

共收到 2 条回复时间点赞

feng666 #1 · 2026年05月27日

那评测工程化的方法论还有相关项目有不，有具体的案例不？

FunTester #2 · 2026年06月16日 Author

对

feng666 回复

我只能分享到这个层次了，可以参考开源的方案，自己多打磨。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

FunTester Prompt 不够了，AI 产品更需要测试思维

作者

FunTester

FunTester Prompt 不够了，AI 产品更需要测试思维

Prompt 不够用

质量不可见

从感觉到验证

数据集

基准

回归

自动评测

最终是工程问题

分水岭是 Eval 系统

FunTester 名片｜万粉千文，百无一用