专注于软件质量体系构建与全过程实践

  • 但在实际执行过程中,出现了一些持续性问题:

    大量低级问题需要多轮修改
    UI 实现未严格对照产品定义
    非功能性问题(边界、异常、细节一致性)长期被忽视
    部分功能未完全按产品定义实现
    版本在测试阶段反复返工 测试阶段经常在 “补实现”,而不是单纯验证风险。

    ==========================

    回到你最初的问题,我的看法是:如果只靠建立提测标准,不一定能达到理想效果。举几个例子来说明:

    大量低级问题需要多轮修改:这类问题确实有可能通过把 P0 级测试用例前置到提测前,得到一定程度的缓解。但你得有提测驳回权,你可以试试。

    UI 实现未严格对齐产品定义:你提到如果能在提测前实现 “与产品定义逐条对照、无明显功能缺失”,这个目标落地其实挺难的。谁来组织?怎么保证大家真的重视?即便大家愿意做,如果 PRD 长达十几页甚至几十页,要求每个人都逐条对照,显然不现实。再加上其他工种手头事情本来也多,这种高成本低回报的操作,时间一长,流程自然会退化。

    非功能性问题(边界、异常、细节一致性)长期被忽视:要是只靠推动研发自测主流程还好,但要去推动他们做关键异常流程,阻力就来了。一来,研发会想:异常流程我都测了,用例也跑得差不多,那测试要干啥?二来,什么算 “关键异常”?这个定义也容易引发争议。服务无影响、超时、返回预期错误值、返回不是预期的错误值这几种哪些属于关键异常?一旦定义铺开,提测标准越搞越复杂,流程就容易再次退化。

    所以结论是:光靠提测标准,很可能过几个月就又退回原样,最后变成一场 “整风运动”,运动过后无法持续落地。

    我觉得更可行的方法,是结合测试准出 + 数据驱动 + RCA,通过指标分析定位根因,推动改进。比如这样操作:

    1. 先定准出标准:比如 P1 bug 不超过 x 个,P2 不超过 y 个,P3 不超过 z 个。不达标就直接在测试报告里写 “不通过”。

    2. 积累 2-3 个月数据,统计你们产品线的准出通过率,形成基线。同时这期间内部发现的 bug 要做归类,比如 “UI 没对齐产品”、“需求没定义清楚” 等。这个过程要做结构化数据管理,可以用飞书、钉钉里的 AI 表格来做,或者内部的各类 Bug 管理平台,但一定要能按时间生成图表。

    3. 找出导致准出不通过的 Top 3 原因(就算有 5 个原因,也别想着一次性全解决,集中推 1-3 个)。例如,哪怕你直觉上认为 “非功能性问题被忽视” 很严重,但如果它不在 Top 3 里,也别强推。

    4. 和你的 +1、+2 对齐 Top 3 问题,确认数据可信、结论靠谱,然后由你或上级拉会推进。如果你是测试经理,那就直接你推。

    这也是质量改进中常见的 RCA 驱动流程演进的方式

    我最近就有这么一个例子:

    我们团队有基本的准入标准,但还是也会出现你说的问题,典型的就是UI 和需求对不齐。最近有个项目,我发现我旁边的组员小 A 每天要花大量时间和产品对齐细节,测试报告出来后,P1、P2 问题十几个,还算勉强接受。但 P3 问题有 100+,而常规项目 P3 一般也就 30–50。虽然 P3 的定义是 “次要或边缘功能,不影响大多数用户正常使用”,但量变可能引发质变。这么多 P3,说明产品设计层面可能有问题。

    • 我就问负责的组员小 A:“为啥 P3 这么多?”。
    • 小 A 说:“PRD 写得太粗糙,很多细节没定义清楚,UI 也没按产品逻辑做,导致大量沟通返工。最后测试结论也是不通过。”
    • 我说:“这 100 多个 P3 里,有多少是因为产品细节不清,多少是 UI 没对齐?”
    • 小 A 说:“大概一半吧。”
    • 我说:“不要给我大概或者体感认知,你现在对这 100 个问题做个归类,给我一个量化数据,看看有多少是 UI 和需求对不齐,又有多少是需求定义不清楚。每个类型举 2-3 个例子,例子中不要只说 ‘UI 没对齐’,要说明哪个模块、产品怎么写的、UI 怎么设计的,产品和 UI 对不起的点在哪儿。”

    有了这些数据后,我拉了产品总负责人、这个产品的具体负责人、小 A 一起对齐。会上产品团队他们才意识到,这个系统是新来的产品同事设计的,新同事对产品团队内部标准不了解,才导致这么多问题。产品负责人会上当场表示会改进,从后续测试数据上看也确实有了改进。另外,他私下和我沟通说,以后能多提供这类数据,因为他平时除了抽检,也很难掌握组员是否真正落实了产品团队内部的标准。

    最后想提醒一点

    你的质量观念和目标是否和大环境一致?(即和你 +1、+2 以及关键合作方的质量观念是否一致?)

    这也是常说的,我们所处的环境是不是讲理?例如大量低级问题需要反复修改,你把 P0 用例前置了,但没有提测驳回权,产品或项目经理说 “不能再 delay 了,大老板/客户要看了,你再 delay 就赶不上我们的 deadline 了”,你怎么处理?如果你上升到 +1,又如果你的 +1 正好是某个大厂的测试负责人,再如果这个大厂最近 all in ai。即便你反馈给了 +1,+1 当下的 OKR 痛点 是 “AI 赋能测试” 甚至 “AI 赋能一切”,他现在还在苦于找不到一个 AI 落地的方向。这时候你要求他费力去争取一个传统的提测驳回权,可能不会有什么结果。

    因此,最后也要看你所在的环境。顺风/讲理的时候很容易推。逆风的时候,可能按现行合作方式走,反而是最优解,即便有很多问题。

  • 不会,一般看总时间即可,甚至总时间都不是一个强制性准出指标,只是一个观测指标

  • 嗯,实际压测时,是否发现物理拐点不重要,重要的是向研发提供可供其判断优化方向的信息

  • 举这个例子最初的目的是为了比较明显的和同步类任务区分开,以便内部人员快速分辨两种场景的区别。如果更严谨的描述,可以分为两种场景:

    1. ToC 类场景,这种场景就像你说的,流量模型不一定怎么来。原则上这种场景和同步类任务一样,要根据线上日志分析流量模型,同时要在预估的流量模型的基础上向上预估一定的量来保证系统不被打挂,但不一定非要知道研发的实际线程池配置,只要满足压测目标即可。
    2. ToB 类场景,这种场景通过和客户的沟通,流量模型怎么来一定程度上是知道的,且甲乙双方在签署合同时,对流量峰值有要求,当实际使用情况超过合同中的流量峰值时,原则上甲方也不会为了超出的部分而买单。所以这种情况不需要做向上预估。
  • 2025,我们这样评测 AI at 2026年01月09日

    已转成文字版本,待审核后应该就可以看到了

专注于软件质量体系构建与全过程实践