AI测试 Agentic AI 时代，作为 QA 工程师的一些思考

caiyuanzi · 2025年08月25日 · 2741 次阅读

本文转自公众号：https://mp.weixin.qq.com/s/wRUIqr79Eps0eS6CV1uyXA

在过去的软件工程的版图中，研发与质量犹如一支球队的进攻与防守两端，作为重要因素影响着产品的成败。算法研究和工程研发作为 “进攻体系”，致力于从 0 到 1 创造价值，或从 1 到 N 扩大战果。而质量作为 “防御体系”，则致力于守护和传递产品价值，通过弥补短板来防止从 N 到 N-1 的溃败。进攻关注的是可能性，而防守则必须关注所有环节。

一个立体、纵深的质量防御体系，是产品成功的基石。然而，当 Agentic AI 的浪潮席卷而来，整个软件开发的 “游戏规则” 正被改写，传统的质量防御体系面临更大的挑战。

一、传统质量保障的战术与局限
长期以来，我们建立了一套行之有效的全流程、多层次的质量保障战术。作为一名从业近十年的 QA 工程师，在探讨这些战术之前，我想先从一个个人观察谈起，这或许也是我们行业普遍存在的一个现实：在很多组织中，QA 团队被视为价值链的末端，一个纯粹的 “成本中心”，其价值难以量化，只有在出现问题时才被凸显。

在这样的背景下，QA 团队的常规工作模式如同一套多层次的防守体系：

前场压迫（预防前置）：在需求和设计阶段介入，识别逻辑风险。
中场拦截（测试执行）：这是质量工作的核心环节。为了保障核心业务的稳定性，我们依赖基于确定性规则的工具（如 SonarQube）进行代码扫描，依赖基于精确脚本的框架（如 Playwright/Pytest）进行端到端测试。这些方法在应对逻辑清晰、路径明确的传统软件时非常有效。
后场清扫（线上质量）：依靠监控体系来发现问题，建立应急响应机制，并通过质量复盘来推动流程和产品的优化。
这套体系的核心更多是管理 “已知的未知”，我们相信只要规则足够完善、脚本覆盖足够全面，就能逼近质量的确定性。然而，当 Agentic AI 的浪潮涌来，这套战术体系开始显得力不从心。

二、 Agentic AI 带来的核心挑战：如何驾驭 “不确定性”
大模型如同新时代的 “电厂”，而 Agent 应用则是各式各样的 “电器”，它们将渗透到每个个体和产品的创造流程中。这带来了几个根本性的变化，而这些变化共同指向了一个核心挑战——如何度量和管理系统的 “不确定性”。

生产过程不确定：“人人都是生产者”
AI 正在极大地模糊专业岗位的边界。借助 AI 工具，非工程师背景的人员也可以在数小时内搭建出一个功能完整的 Web 应用。当代码的生产者和生产过程都变得不可控时，传统的、中心化的 QA 团队如何应对？我们过去一个 QA 可能并行支持<5 个项目，未来可能需要面对>10 个由 AI 生成、质量参差不齐的应用的评估请求。

运行结果不确定：“从可预测到概率性”
AI Agent 的输出是概率性的，其内在的随机性和幻觉，使得任何一次运行都可能产生预料之外的结果。AI 生成的代码，看似能用，实则可能隐藏着大量的逻辑漏洞、安全隐患和性能陷阱。

维护成本不确定：“黑盒” 的代价
正如社区广泛讨论的（比如：Writing Code Was Never the Bottleneck），AI 生成代码虽然快速，但其可读性、可维护性往往较差。当问题出现时，我们面对的不再是清晰的逻辑，而是一个难以解释的 “黑盒”。

这一切都迫使质量保障的重心，从 “寻找一个已知的 Bug”，转向 “评估一个充满不确定性的系统的风险”。接受 “永远有未知”，并尝试量化和控制它，是 QA 工程师们面临的新课题。

三、我们的新战场：构建面向 “不确定性” 的质量体系
既然核心挑战已经从管理 “确定的系统” 转变为驾驭 “不确定的 AI”，那么我们的质量保障体系，尤其是工具和方法论，也必须随之进化。优秀的 QA 工程师作为 “价值共创者” 的角色需要被强化，我们的战场，就是为驾驭不确定性，打造全新的 “武器库”。

新思路：从 “人找 Bug” 到 “AI 评估 AI” 正如业内许多专家所指出的，有效的评估正在成为制约大模型和 Agent 能力进一步发展的关键瓶颈。我们过去长期面向业务沉淀下来的用户思维和测试案例，可以转化为训练和评估新一代质量工具的宝贵数据。我们需要将模糊的商业目标转化为可量化的评估指标，去构建能反映真实用户行为的 “黄金测试集”，并以此为基础，构建更真实的评估框架。
新武器：从 “自动化脚本” 到 “智能化 Agent” 这也可以是当前测试开发角色在 AI 时代的新方向。我们需要投身于 “造船”——构建新的质量基础设施。正如 Manus 团队曾在一篇文章中提到的：“如果模型进步是上涨的潮水，我们希望成为那条船，而不是固定在海床上的柱子 “。这艘 “船” 应该是什么样？下面是一些不成熟的想法：
智能代码分析：它不应再是基于固定规则的扫描器，而是一个能理解需求、架构和代码上下文，主动挖掘逻辑缺陷和安全风险的智能分析 Agent。
智能集成测试：它也不再是需要人工维护的精确脚本，而是一个能理解 PRD、模拟真实用户体验、并自主探索和发现缺陷的用户体验 Agent。
智能可观测性：它需要超越传统的日志和指标，深入 Agent 的 “思考过程”，实现对决策链、工具调用和知识检索的全链路可观测。
等等这些，都需要一个全新的质量解决方案。我们近期也进行了一些初步的思考和探索，并尝试将一些想法落地并计划在近期开源相关 Agent，希望能为社区提供一个微小但具体的实践参考，也期待能引发更多的交流与共建。

新时期软件质量的内涵和外延都在被重新定义。这是一条充满未知但激动人心的道路，或许我们正站在定义下一个十年软件质量范式的起点上。

2 个赞

共收到 0 条回复时间点赞

caiyuanzi 在「0 代码，会思考」：我们开源了一个能自主找 bug 的 agent 中提及了此贴 08月26日 22:25

需要登录后方可回复, 如果你还没有账号请点击这里注册。