AI测试 测试技艺 | 迈开 AI 赋能测试的三大步

44岁的测试小学生 · 2025年06月05日 · 914 次阅读

测试技艺 |AI 赋能 GUI 自动化测试的挑战》发布几天后,我收到一位网友的私信。

A:“公司就是不批 A800,AI 落地自动化测试是不是没戏了?领导口口声声说 ‘All in AI’,却不投资,这怎么搞?”

我:“一台 A800 至少 10 万元起步。另外,你确定想好为什么要搞 AI 了吗?”

A:“这是领导考虑的事。先把大模型和 Agent 搭起来,走一步看一步再说呗。”

我:“但是,AI 赋能测试是一种组织化的创造性投资。我们不能忘记,个人动机与团队利益相符的程度,决定了我们在这条路上能走多远。”

1. 为自身利益考量

如果你是职场新人,可能存在职业生存焦虑,或者对新事物充满好奇,亦或追求卓越。

你担心 AI 会取代你的手工测试工作,因此想了解 AI 发展趋势,并寻找顺手的 AI 工具。

你可以打开 Deepseek,学习如何设计 Prompt,让它帮你生成符合需求的测试用例、策略、脚本和报告,这是最直接提升技能和工作效率的方法。

如果你是一名测试开发,具备一定的程序设计和自动化开发能力,加上领导要求你探索 AI。

那么,由你来宣布 “AI 落地” 将是至高无上的荣耀,不仅能提升你的个人品牌,还能让你的简历更充实、更具市场竞争力。

有时 Cursor 无法满足你的需求,你可能会考虑基于 MCP 搭建专属智能体。

如果你在学校接受过系统的 AI 理论学习和项目历练,或者你是一个AI 技术狂热者

你期望能创造一个革新性方案,或是一个基于 AI 的明星工具,甚至在某些 AI 应用技术上有所突破。

那么,在测试大会上展现你的风采,将为你带来无尽的掌声和赞誉。

如果你是一名经验丰富的测试架构师,或者是一个测试部门或效能团队的测试负责人

当你看到周边团队都在 “All in AI” 时,你也会担心被他人抢占先机、获取资源。

当然,你可能更希望将 “通过 AI 赋能测试团队” 的功劳归于自己,这或许是你多年前作为工程师时未能实现的夙愿。

不同的人有不同的个人诉求。但是,利用 AI 赋能测试,你总要为自己的测试职业发展和影响力建设考虑。

当然,当前愿望满足后,你也可以挑战更高、或被认为是更正确的愿望。

如果主观意愿不够强烈,你可以暂时观望,因为剩下的都是阻力和挑战。况且,AI 尚未颠覆计算机底层逻辑,现有的技术资产仍能为你提供保障。

2. 协助公司评估投入产出

如果只考虑个人利益,不顾及领导或公司的需求,我们的创新工作将难以推行。因为我们需要获取资源,这包括我们自身的时间投入、软硬件投入,以及可能配合我们一起探索的其他人的时间投入。

况且,AI 在测试领域的创新,其前期资源投入并不少于非 AI 技术创新工作。

我们需要站在领导的角度,理清这笔投入及其所产生的回报。这不仅能为我们赢得资源和情感支持,也是提升测试技艺的难得时机。

下表是一个启发式的、AI 驱动测试的回报评估框架:

指标类别 指标案例 核量估算举例
效率提升 测试用例创建时间 4 小时 => 2 小时,耗时缩短 1 倍
测试执行完成时间 8 小时 => 4 小时,耗时缩短 1 倍
测试连续执行时间 2 小时 => 8 小时,稳定性提升 4 倍
测试维护工作量 8 小时/更新 => 2 小时/更新,成本降低 4 倍
质量改进 测试覆盖率 70% => 90%,自动化覆盖率提升 20%
缺陷密度 15/KLOC => 7/KLOC,缺陷率减少 1 倍
缺陷遗漏率 10% => 5%,缺陷遗漏减少 1 倍
业务影响 上市时间 (定性和模糊估算)
生产力提升 (定性和模糊估算)
客户满意度评分 (定性和模糊估算)

AI 在测试上的应用需要与这些维度建立映射关系,我们的工作才能站得住脚,并且这种映射越清晰,工作就越稳固。

有时,我们可能缺乏获取这些指标的方法或工具,但仍需清楚当前的应用能在哪些指标上产生积极影响,并给出一个预估值,以便后续跟踪和映射实际效果。

如果我们实在找不到任何可映射的指标,或许就需要回到第一步,重新审视是否有必要继续以 AI 的名义投入个人时间,去探索未知和可能性。

当然,AI 并非一本万利的生意,我们必须考虑投入的成本。

而我们的领导对金钱和时间的关注度是你的十倍。他们需要时刻估算组织的短期或长期成本,以此来判断你工作的价值。

成本类型 成本内容
初始投资成本 AI 测试工具购买费用
LLM 订阅费用
测试环境、服务器或云资源等基础设施费用
经常性运营成本 AI 模型再训练的开销
持续的数据获取、数据存储和数据维护成本

正如最开始提到的,网友觉得领导不批 A800,因为他想用它来微调一个开源大语言模型,但这个成本是巨大的(初始成本就达 10 万元人民币)。

如果我们是为了基于 AI 提升 GUI 自动化的可靠性,那么准备大量图片并逐一标注、标注工具的授权费用、以及截图和标注的人力成本,都将计入初始成本。

而在文章《打造探索式测试智能体—Scoutron》中开发的非常简单的智能代理,仅使用 Spectron 一个小时,就会向 Gemini-2.0-Flash 输入 6M 的 token,产生大约 0.1 元的费用。但这还只是基于文字的 Agent。可以想象一下,基于图像的自动化测试智能体,成本会再提升 10 倍或更多。

与非 AI 技术应用范式相比,AI 的初始投资成本会显著大增,并且许多隐性成本也容易被忽视(例如 AI 模型再训练所需的人力与算力成本)。这些都是最终劝退 AI 落地的主要因素,让前期光鲜的调研结果和呈现都流于形式,最终对企业不产生任何价值。

3. 对风险心中有数

即便我们顺利走完了第一步和第二步,真正实现 AI 赋能测试的 “最后一公里” 仍然充满荆棘,甚至可能无法跨越。因此,有必要清晰地预见所有风险,以避免前功尽弃。

AI 的技术与数据挑战来看,数据质量、集成复杂性、模型透明度这三项是无法回避的。

数据质量决定了通用 AI 是否能被恰当地训练(微调),以适应特定的上下文。与选择何种 AI 模型或 Agent 相比,数据的重要性需要强调三遍。

集成复杂性则需要审视现有技术架构与 AI 的匹配度,以及真正集成时所需付出的巨大努力。我们通常无法抛弃现有体系结构,而只能选择与 AI 工具进行适配和集成。

模型透明度决定了当 AI 执行出现问题时,我们如何解释和调整它。AI 模型的不可解释性以及其 “黑盒” 特性,会无形中增加经常性运营成本,而且这些成本往往是隐性和不可预期的。

AI 的组织与文化挑战来看,初始设置、工具学习曲线、信任问题这三项也需要我们认真思考。

如果身处一个创新驱动变革的文化中,那么成功的机会就会很大。反之,如果产品市场缺乏竞争力,企业生死未卜,内部创新都成了空话,这又与测试和 AI 有什么关系呢?

现在我们已经熟悉了大型语言模型(LLM)的文本输入范式,但在创新性测试实践中,它能否传播并被广泛接受,可能取决于第一印象和易用性,这甚至与是否选用 AI 本身无关。

此外,当 AI 产生 “幻觉” 或结果与预期不符时,我们也必须找到通向正确输出的方案,例如重新训练 AI 模型或调整参数。只有这样,才能赢得团队和组织的信任,让 AI 在组织内部扎根成长。

AI 的伦理与安全考量来看,数据隐私、算法偏见、假阳性/假阴性风险这三项可能成为压垮骆驼的最后一根稻草。

将企业内部数据上传到商业 AI 模型是一个需要权衡的问题,这可能引发隐私泄露风险。我们必须与公司领导或法务部门保持合作,确认此类风险后方可行动。否则选择自行搭建 GPU 算力,就需要考虑成本问题。此外,算法偏见也会带来各种法律和管理问题,与公司实践保持一致也至关重要。

假阳性/假阴性是测试中无法避免的问题,尤其当 AI 的应用范围拓展到更广阔的领域时。这是机器学习这项技术的内在基因,当我们在追求确定性目标时,就需要去适应 AI 产生的不确定性。

4. 确保我们走在正确的道路上

参考《AI 只不过是"普通"技术 [翻译&阅读笔记]》一文的观点,AI 赋能测试主要通过三个路径实现:“1)AI 技术创新;2)AI 在测试中的应用;3)AI 融入到组织的工作流程中”。

目前现状是,多数人都在学习第 1 条路径、尝试第 2 条路径,并向往着第 3 条路径。然而,个人动机和利益往往停留在 “学习 1” 和 “尝试 2” 的阶段,而组织则 “期望 3”。这种个人与组织期望的不匹配是一个现实问题,且与选择何种 AI 技术和工具无关。

我们无法回避这样的挑战,除非你只是抱着随便试试的心态,并且时间非常充裕。

只有充分考虑自身利益、帮助公司评估投入产出、对潜在风险了然于胸,并积极寻求个人与组织共赢的解决方案,基于 AI 的测试创新才更有可能在我们手中取得成功。

张昊翔

2025/06/4

WeChat:  hzhan11

QQ:  22321262

Email: xjtu_xiangxiang@hotmail.com

LinkedIn: https://www.linkedin.com/in/hzhan11/

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册