本文转自公众号:https://mp.weixin.qq.com/s/wRUIqr79Eps0eS6CV1uyXA
在过去的软件工程的版图中,研发与质量犹如一支球队的进攻与防守两端,作为重要因素影响着产品的成败。算法研究和工程研发作为 “进攻体系”,致力于从 0 到 1 创造价值,或从 1 到 N 扩大战果。而质量作为 “防御体系”,则致力于守护和传递产品价值,通过弥补短板来防止从 N 到 N-1 的溃败。进攻关注的是可能性,而防守则必须关注所有环节。
一个立体、纵深的质量防御体系,是产品成功的基石。然而,当 Agentic AI 的浪潮席卷而来,整个软件开发的 “游戏规则” 正被改写,传统的质量防御体系面临更大的挑战。
一、 传统质量保障的战术与局限
长期以来,我们建立了一套行之有效的全流程、多层次的质量保障战术。作为一名从业近十年的 QA 工程师,在探讨这些战术之前,我想先从一个个人观察谈起,这或许也是我们行业普遍存在的一个现实:在很多组织中,QA 团队被视为价值链的末端,一个纯粹的 “成本中心”,其价值难以量化,只有在出现问题时才被凸显。
在这样的背景下,QA 团队的常规工作模式如同一套多层次的防守体系:
前场压迫(预防前置):在需求和设计阶段介入,识别逻辑风险。
中场拦截(测试执行):这是质量工作的核心环节。为了保障核心业务的稳定性,我们依赖基于确定性规则的工具(如 SonarQube)进行代码扫描,依赖基于精确脚本的框架(如 Playwright/Pytest)进行端到端测试。这些方法在应对逻辑清晰、路径明确的传统软件时非常有效。
后场清扫(线上质量):依靠监控体系来发现问题,建立应急响应机制,并通过质量复盘来推动流程和产品的优化。
这套体系的核心更多是管理 “已知的未知”,我们相信只要规则足够完善、脚本覆盖足够全面,就能逼近质量的确定性。然而,当 Agentic AI 的浪潮涌来,这套战术体系开始显得力不从心。
二、 Agentic AI 带来的核心挑战:如何驾驭 “不确定性”
大模型如同新时代的 “电厂”,而 Agent 应用则是各式各样的 “电器”,它们将渗透到每个个体和产品的创造流程中。这带来了几个根本性的变化,而这些变化共同指向了一个核心挑战——如何度量和管理系统的 “不确定性”。
生产过程不确定:“人人都是生产者”
AI 正在极大地模糊专业岗位的边界。借助 AI 工具,非工程师背景的人员也可以在数小时内搭建出一个功能完整的 Web 应用。当代码的生产者和生产过程都变得不可控时,传统的、中心化的 QA 团队如何应对?我们过去一个 QA 可能并行支持<5 个项目,未来可能需要面对>10 个由 AI 生成、质量参差不齐的应用的评估请求。
运行结果不确定:“从可预测到概率性”
AI Agent 的输出是概率性的,其内在的随机性和幻觉,使得任何一次运行都可能产生预料之外的结果。AI 生成的代码,看似能用,实则可能隐藏着大量的逻辑漏洞、安全隐患和性能陷阱。
维护成本不确定:“黑盒” 的代价
正如社区广泛讨论的(比如:Writing Code Was Never the Bottleneck),AI 生成代码虽然快速,但其可读性、可维护性往往较差。当问题出现时,我们面对的不再是清晰的逻辑,而是一个难以解释的 “黑盒”。
这一切都迫使质量保障的重心,从 “寻找一个已知的 Bug”,转向 “评估一个充满不确定性的系统的风险”。接受 “永远有未知”,并尝试量化和控制它,是 QA 工程师们面临的新课题。
三、我们的新战场:构建面向 “不确定性” 的质量体系
既然核心挑战已经从管理 “确定的系统” 转变为驾驭 “不确定的 AI”,那么我们的质量保障体系,尤其是工具和方法论,也必须随之进化。优秀的 QA 工程师作为 “价值共创者” 的角色需要被强化,我们的战场,就是为驾驭不确定性,打造全新的 “武器库”。
新思路:从 “人找 Bug” 到 “AI 评估 AI” 正如业内许多专家所指出的,有效的评估正在成为制约大模型和 Agent 能力进一步发展的关键瓶颈。我们过去长期面向业务沉淀下来的用户思维和测试案例,可以转化为训练和评估新一代质量工具的宝贵数据。我们需要将模糊的商业目标转化为可量化的评估指标,去构建能反映真实用户行为的 “黄金测试集”,并以此为基础,构建更真实的评估框架。
新武器:从 “自动化脚本” 到 “智能化 Agent” 这也可以是当前测试开发角色在 AI 时代的新方向。我们需要投身于 “造船”——构建新的质量基础设施。正如 Manus 团队曾在一篇文章中提到的:“如果模型进步是上涨的潮水,我们希望成为那条船,而不是固定在海床上的柱子 “。这艘 “船” 应该是什么样?下面是一些不成熟的想法:
智能代码分析:它不应再是基于固定规则的扫描器,而是一个能理解需求、架构和代码上下文,主动挖掘逻辑缺陷和安全风险的智能分析 Agent。
智能集成测试:它也不再是需要人工维护的精确脚本,而是一个能理解 PRD、模拟真实用户体验、并自主探索和发现缺陷的用户体验 Agent。
智能可观测性:它需要超越传统的日志和指标,深入 Agent 的 “思考过程”,实现对决策链、工具调用和知识检索的全链路可观测。
等等这些,都需要一个全新的质量解决方案。我们近期也进行了一些初步的思考和探索,并尝试将一些想法落地并计划在近期开源相关 Agent,希望能为社区提供一个微小但具体的实践参考,也期待能引发更多的交流与共建。
新时期软件质量的内涵和外延都在被重新定义。这是一条充满未知但激动人心的道路,或许我们正站在定义下一个十年软件质量范式的起点上。