MTSC MTSC 2025 上海站议题总览

TesterHome小助手 · May 16, 2025 · Last by A1995 replied at June 05, 2025 · 12060 hits

经过数月的征稿和评审委员会老师们的多次审稿,我们的议题终于敲定,本次会议四大平会场,5 个主题分会场,30+ 精休 议题,我们相信,参会者定能大饱耳福,满载而归。

献上购票二维码,感兴趣的小伙伴可以下手了。

同时为了让大家在聆听演讲时候,对议题有更好的理解,我们想和大家聊聊深圳这次的议题,做到有的放矢,各取所需。虚的话就不多说,直接上正菜。我们从 AI 质量新范式开始。

AI 质量新范式

华为 Code Agent 代码智能体评测实践

华为 code agent 是个 E2E 智码开发智能体,覆盖需求分析 Agent,设计 Agent,开发 Agent, DT Agent,质检 Agent 等全流程应用开发智能体,如何开展评测是个巨大挑战。

听众收益:
了解华为 CODE agent E2E 全流程评测实践路径。

面向 Deepseek 推理模型的 COT 数据质量评测

给 “AI 大脑” 的思考过程做次体检,我们设计了一套针对 DeepSeek 推理模型的「思维链质检方案」,解决传统方法 “只看格式、不管逻辑” 的痛点,让 AI 的推理更靠谱、更可控。

听众收益:
本议题将分享:如何构建面向大模型需求的 COT 数据质量工程体系,突破 “人工标注 - 黑盒训练” 的传统范式,为 AI 2.0 时代的高阶推理能力进化提供基础设施级保障。

RAG 应用质量保障建立

分享如何建立从 0 到 1 的 RAG 技术的商业应用质量保障任务:
(1) 资料检索准确性:如何确保 RAG 检索到的资讯最新且正确?
(2) 内容品质评估:生成的回应如何量化其正确性、相关性及避免幻觉
(3) Agent 工作流程验证:如何确保多个 Agent 在协作时能正确分配与调用适当工具?
(4) 测试资料管理:如何确保输入资料的品质及测试资料的生成
(5) 效能与安全性测试:如何测试系统的回应时间、提示词注入(Prompt Injection)防御机制,以及可能的资料泄漏风险?
(6) 自动化测试:快速迭代下,大模型每次返回内容皆不同,如何透过自动化测试手段保障质量
本次分享将介绍我们的测试策略,包括 RAG 内容评估、Agent 验证、全链路测试、自动化测试框架,以及应对商业应用中的安全与合规风险。

听众收益:
了解 RAG 测试挑战,讨论自动化测试策略与工具,提升 AI 产品测试能力,确保生成内容可靠性与系统稳定性,从我们团队的解决方案中获取一些启示。

AI 视觉模型结合页面知识图谱助力 UI 自动化完成视觉需求测试落地实践

在我们的客户端 AI 自动化测试中,最核心的一项工作是 AI 执行的实际效果,但面临的挑战有:
(1) 如何让视觉模型准确识别你想要的控件并进行操作?
(2) 需求文档通常语言表述多样,如何确保从文档中提取的信息准确无误地映射到业务链路节点?
(3) 业务链路复杂,包含众多环节与分支,如何梳理需求与各环节的关联关系,形成清晰的知识图谱?
(4) 构建的知识库如何设计合理的查询与检索机制,方便测试人员快速获取所需信息?
本次分享将介绍我们团队在这几个方面的探索和当前取得的初步效果。

听众收益:
了解梳理需求与业务链路,利用知识图谱及设计知识库查询机制,帮助解决 AI 在 UI 自动化测试中的业务链路问题及一些启示。

AI+ 效能提升

优酷 OTT 领域云测一站式解决方案

在 OTT 领域内,对于不同业务形态,不同设备的质量保证及效果验证一直是核心要点,但面临的挑战有:
1、设备形态多样性,包含盒子,投影仪,电视,带屏智能精灵
2、网络多样性,涵盖公网,移动,联通,电信,广电等专有网络
3、涉及国内外各大主机厂家
4、涉及多地域的效果验证
通过本次分享,你可以了解到,优酷作为 OTT 领域内的重要参与平台,我们如何通过一站式解决方案,解决了上述问题

听众收益:
由于 OTT 领域相对比较垂直,大家对这个领域了解不够多,通过本次分享,大家可以了解到 OTT 行业的基础特性,也可以了解到在测试保障领域,我们的针对性的解决方案

抖音性能 LLM 分析体系建设 - 从智能诊断到决策推荐

通过 AI 驱动的智能诊断和策略推荐,解决移动端性能优化中的归因困境和方案选择难题,提升性能问题解决效率,获得用户体验和业务指标收益。

听众收益:

  • 策略推荐方法:了解基于 RAG 和知识图谱的策略推荐方法,了解如何从海量知识库召回优化方案并适配业务场景,可用于提升自身性能优化方案的覆盖率和针对性,减少试错成本。
  • 技术实现参考:了解如何将 LLM 的规划和推理能力应用于性能优化,获取从用户反馈到技术归因的自动化流程设计细节,可直接用于优化现有诊断工具或 AI 项目,如构建类似的多领域专家系统。

AI 大模型驱动算法评测的 “效能革命”

在 AI 大模型时代,算法评测面临数据规模激增、复杂场景覆盖不足及人工成本高等挑战。因此,我们基于大模型技术重构评测全流程,覆盖数据集构建、离线评测、业务上线和线上巡检四大环节,实现效率与质量的双重突破。

从像素到语义:大模型 + CV 构建全终端 UI 检测下一代技术

传统 UI 自动化面临高投入低回报的困境,本次分享将介绍我们创新性融合大模型与计算机视觉技术,打造全终端智能 UI 异常检测方案:通过动态感知技术实现页面快速触达和信息提取,运用多模态 LLM + CV 校验保障检测精准度,构建零代码维护的自动化管理体系,建立异常检测 - 定位 - 修复的完整闭环,为 UI 质量保障带来新突破。
(1) 如何动态感知页面状态,解析页面信息?
(2) 如何保障 UI 检测的的稳定性、时效性、准确性?
(3) 如何实现海量用例自动化管理,减少测试干预?
(4) 如何建立异常跟踪与反馈机制,实现测试闭环?

听众收益:
(1) 为低成本 UI 自动化测试提供思路
(2) 了解多模态 LLM 和 CV 技术作用于 UI 异常识别的经验

AI 驱动的测试新范式:从智能用例生成到视觉自验证的闭环实践

本次分享将介绍酷狗音乐从用例生成到验证闭环的技术架构,深度解析如何通过 Prompt 工程实现高质量用例生成,结合视觉大模型突破传统自动化校验瓶颈。方案包含动态 Prompt 拼接技术、多粒度视觉校验体系,以及低成本轨迹回放引擎,支持大规模巡检场景,并基于 H5 活动页,讲解从用例生成到线上巡检的完整落地实践。关键方案 (1) 高质量用例生成依赖哪些要素,如何支持业务高效使用?(2) 文字用例如何通过视觉大模型转换为 APP 执行指令?(3) 大模型使用成本高昂,如何低成本支持大规模执行?

听众收益:
(1) 了解 AI 用例生成的关键要素
(2) 了解视觉大模型在用例自动执行的应用

AI 赋能代码质量提升:从智能补全到全流程审核优化

本次分享将介绍如何结合 AI 能力,在研发、测试、代码审核等不同阶段提升代码质量。我们将探讨 AI 智能补全如何助力高效编码,AI 审核助手如何在 CICD 流程中自动审核增量代码以降低质量风险,AI 智能排障如何通过日志分析和代码关联加速问题定位,以及 AI 模块问诊如何识别项目级潜在风险并提供优化建议。通过本次分享,听众将了解 AI 如何全流程赋能代码开发与质量提升,以及相关的落地方案。

听众收益:
了解如何利用 AI 编码助手提高研发效率
了解在 CICD 全流程中结合 AI 能力发现问题、提升质量的实践与落地方案

基于 AI 的 UI 自动化问题解决和提效实践

UI 自动化测试作为酷家乐质量保障体系的核心部分,在有效降低回归测试成本的同时,长期面临着脚本开发效率的瓶颈问题。
(1)AI 编写的 UI 自动化 case 容易与实际场景、已有框架/封装偏离,怎么解决?
(2) UI 自动化中比较重要的 xpath,ai 能帮助写么?怎么写?
(3)AI 辅助编写 UI 自动化 case,如何评价编写的 case 质量?
(4)不同业务场景差异较大,怎么推进整个团队的提效落地?
团队在过去两年持续探索 AI 与 UI 自动化测试的融合路径,随着 AI 基础设施的不断完善与提升,帮助我们落地了多种自动化提效路径。
本次分享将聚焦 AI 在自动化测试领域的实践探索,系统介绍从 AI 测试平台建设到具体自动化提效场景的全链路经验。

听众收益:
可以了解 AI 编写自动化测试 case 会遇到的问题情况、解决思路,并基于我们团队的落地实践获得一些启示

针对移动 APP 的隐私合规安全检查越来越严格,如不慎误触了隐私合规规范会有在应用市场下架的风险。然而进行详尽细致的测试,在技术实现上和成本上都存在很大挑战。
1、APP 获取隐私的行为对测试是黑盒,难以捕获。
2、APP 行为复杂,难以全面监控。
3、合规政策不断持续更新,需要快速适应新规。
4、集成的第三方 SDK 可能引入未知风险。
5、专业合规检测工具费用高昂。

AI 驱动的 APP 行为合规监测

针对移动 APP 的隐私合规安全检查越来越严格,如不慎误触了隐私合规规范会有在应用市场下架的风险。然而进行详尽细致的测试,在技术实现上和成本上都存在很大挑战。
1、APP 获取隐私的行为对测试是黑盒,难以捕获。
2、APP 行为复杂,难以全面监控。
3、合规政策不断持续更新,需要快速适应新规。
4、集成的第三方 SDK 可能引入未知风险。
5、专业合规检测工具费用高昂。

听众收益:
为移动端测试开发人员提供解决应用合规问题思路和方法

AI+ 质量保障

全链路·真场景·高敏捷——直播服务多协议混合压测实战

议题介绍
在直播业务爆发式增长背景下,我们的性能压测面临双重矛盾:
▸ 流量弹性需求(活动峰值流量暴涨 3 倍)VS 回放刚性限制(历史流量模型固化)
▸ 技术真实性需求(单直播间大 key 真实还原)VS 操作简易性诉求(非技术角色自主发压)
核心挑战追问
(1) 定位难:当有 30+ 功能模块时,如何准确定位雪崩风险点?
(2) 模拟真:当寒促流量较暑促翻倍时,怎样既保持班组师生原配比的同时等比扩大并发量,又能突破单直播间几十万 + 大 key 的模拟瓶颈?
(3) 协议多:一个场景需要 tcp 和 http 双协议交互,如何兼容双协议在一个场景中压测?
(4) 效能低:面对常态化压测需求,如何实现从"2 小时/次"到"10 分钟/次"的压测效能跃迁?
(5) 协同差:当开发/测试/运维多角色协作时,如何通过一套平台消除脚本开发、环境搭建、结果解读的认知误差?
本次分享将介绍我们团队在这几个方面的探索和当前取得的初步效果。

听众收益
了解直播压测中遇到的难题以及从我们团队的解决方案中获取一些启示。

高效稳定的全球化发布体系建设实践

在全球化业务蓬勃发展之际,市场需求日益增长,我们不断加快交付节奏。但环境多样、时区有别、跨团队协作复杂,加之前端应用快速迭代与高频发布,让测试与交付遭遇前所未有的挑战。
在体系化建设时,难题接踵而至:手动部署效率低,拉长开发周期;环境一致性难保证,发布质量受影响;自动化测试覆盖率不足,应用品质把控难;发布风险高,缺少有效管控手段。
历经两年多持续优化与探索,我们从全球化视角出发,成功搭建完整的前端发布体系。平台能力建设上,实现开发产物集中、标准化管理,大幅提升管理效率与准确性;流程贯通层面,打通 CI/CD 与 DevOps 平台,保障各环境高度一致,降低因环境差异引发的故障风险;质量保障体系中,构建全方位自动化测试框架,涵盖多语言、白标、接口、集成、端到端测试等,与发布流程无缝对接。
这一系列优化,显著提升发布效率,最大程度降低人为失误风险,为前端应用稳定运行筑牢根基。实践成果有力支撑我们应对全球化业务挑战,也为行业类似场景提供借鉴经验 。

听众收益:

  1. 了解 Paas 公司从需求管理到产品交付的完整的生命周期;
  2. 了解群核科技设计工具全球化发布的平台结构和流程体系;

大前端智能化测试实践

议题介绍:
大前端智能测试旨在通过人工智能和自动化技术,提高跨平台移动应用、Web 应用的测试效率,力求减轻人为测试的负担,提供更高效、准确的测试结果。
「当前面临的挑战」:

  • 1. 人工成本高:传统前端测试在设计用例、环境搭建、测试执行以及结果分析等环节中,需要投入大量的人工时间和精力,尤其是在复杂的应用场景中。
  • 2. 自动化门槛高:编写前端自动化测试用例需要复杂的配置和深入的需求理解,导致耗时且容易出错。
  • 3. 兼容性差:传统的前端自动化测试在不同设备或动态页面数据上难以保持一致的准确性,页面信息动态变化时,测试结果容易失败。 「解决方案」: 为了解决上述挑战,我们建设了大前端智能化测试能力矩阵:
  • 1. AI 驱动的前端自动化测试用例生成与执行 -- 1.1 AUITestAgent:针对大前端 UI 测试的 Agent,实现了通过自然语言操作客户端,同时还能够根据自然语言校验规则进行功能检查。 -- 1.2 根据测试人员输入与被测页面信息,初步生成自然语言形式的自动化测试用例。
  • 2. KuaiTest 智能遍历测试:利用大模型能力,智能化遍历同时进行功能检查。
  • 3. 智能视觉回归测试:利用图像处理和大模型能力,实现通用 UI 异常检测等能力。 业务效果: 大前端智能化能力在到综、到餐、平台、金融等多个业务中中以极低人力成本覆盖了 700+ 城市和 5000+ 页面,累计运行超过 14465 小时的自动化测试用例,成功发现 21 个业务问题和 8 个合规问题,同时在鸿蒙适配测试中执行 4 万 + 用例发现 34 个异常,在前端测试 Agent 各场景中每周节约 1.5 人天,确保整体测试效率提升与问题发现。 本次分享将介绍团队在这些方面的探索成果,以及智能化测试工具如何在具体业务场景中应用,最终实现提升测试效率、减少人工成本和提高测试准确性的实践经验

听众收益:
了解大前端智能测试中面临的主要挑战,并从我们团队的智能化测试实践中获取创新解决方案的启示。帮助听众更好地理解如何利用人工智能和自动化技术来提升前端测试效率、降低人工成本和提高测试准确性。

功能性质驱动的测试技术:下一代 GUI 自动化测试技术

议题介绍:
功能性质驱动的测试技术旨在通过将应用功能定义为 “性质”,赋予自动化遍历工具感知业务功能的能力,从而达成自动化检查功能错误和提升覆盖率。为自动化遍历技术提供更强大的检错能力。

「当前面临的挑战」: 
遍历技术无业务功能感知:传统遍历工具如 monkey,fastbot 等,虽然可以自动注入 GUI 事件,但其对应用功能无感知,无法理解业务逻辑。这带来以下两个问题:
1.1 难以进入应用深层状态:当某些功能场景在应用的深层状态,需要通过一段很长的业务功能路径才能到达时,遍历工具会因缺乏业务知识而难以自动遍历进入此状态。
1.2 无法检查业务逻辑错误:因为遍历工具无应用的业务知识,遍历过程中无法检查应用的业务逻辑错误。
 
「解决方案」:
为了解决上述挑战,我们提出了应用功能驱动的自动化测试技术,同时开源了应用功能驱动的自动化测试工具 Kea2。 

  1. 应用功能驱动的测试技术
    • 1.1 针对业务逻辑,测试人员编写应用功能性质脚本
    • 1.2 应用功能驱动的测试工具利用功能性质脚本进行更强大的自动化遍历测试    本次分享将介绍团队在这些方面的探索成果,以及应用功能驱动的测试工具如何在具体业务场景中应用,最终实现提升测试效率、减少人工成本和提高测试覆盖率的实践经验      听众收益: 了解自动化遍历测试中面临的主要挑战,并从我们团队的测试实践中获取创新解决方案的启示。帮助听众更好地理解应用功能驱动的测试技术,以及如何本技术来提升 GUI 测试效率、降低人工成本和提高测试准确性。

万物皆图下的需测一体化

近年来,汽车软件代码量与复杂度呈指数级增长,对于测试与质量保障提出了严峻挑战。
我们从需求出发,探索基于复杂需求的测试智能生成与执行,并分享需测一体化在企业内部的落地经验。

听众收益:
针对汽车复杂软件系统的智能测试方法及方案

轻量级演练体系建设

背景:随着业务发展在线服务越来越多,在不同区域机房部署不对等,存在大量链路路由特殊配置,而资源供给不足且不均衡的现状也加剧了整体稳定性风险。
措施:识别业务核心链路,清理不合理依赖关系,并针对核心服务梳理建设高可用预案对业务稳定性至关重要。
问题:传统的 trace 追踪和流量计数很难反馈出业务强弱依赖关系和重要性。同时存在业务链路演练效率低、演练 Case 复用性差、需要多角色参与等问题。
方案:使用技术手段进行各种类型的自动化演练和测试,包括强依赖演练、弱依赖演练、降级演练、降级演练和超时演练,以识别核心链路接口的真实依赖关系。通过定期演练,确保计划的有效性,使演练计划在紧急情况发生时能够满足要求。实现了完全自动化的演练和验证能力,无需人工干预,并已应用于多个业务领域。
本次分享将会对整体落地做完整介绍。

听众收益:
在链路长、服务节点多、迭代快的背景下,如何从零到一建设完整的轻量级演练体系,有很强的复用性,可以匹配到自己的实际业务场景中,取得收益。

大型联机系统混沌工程测试实践

金融系统高可用性测试中,最核心的挑战是验证"三高"架构(高并发/高可用/高复杂度)的可靠性,主要面临以下问题:
(1) 面对万级 TPS、千级节点的复杂架构,如何建立适配业务等级的高可用测试标准?
(2) 传统测试手段难以覆盖多层级故障场景,如何实现全链路验证?
(3) 故障注入依赖人工经验,如何精准控制爆炸半径并降低实施成本?
(4) 复杂调用链路导致故障覆盖率不足,如何通过工程化手段突破有效性瓶颈?
本次分享将重点解析:
1.大型联机类系统的高可用标准
2.大型联机类系统中,混沌工程驱动的高可用测试体系演进
3.大型联机类系统中,混沌实验平台化高可用验证实践

抖音鸿蒙客户端性能防劣化建设

华为官宣 HarmonyOS Next 发布以来,势头非常凶猛。2024年4月7日,已有超 4000 个应用加入鸿蒙生态,众多互联网大厂也纷纷启动鸿蒙系统应用适配。伴随着鸿蒙应用的开发迭代,不可避免的会引入性能劣化问题。线下性能防劣化作为捕获性能劣化问题的重要手段,可以及时发现劣化问题,在问题上线之前将其处理。当前性能防劣化能力已覆盖 Android、iOS、lynx、web 等多终端以及抖音、TikTok、西瓜等多业务线,收益成果显著。因此,亟需将线下性能防劣化能力覆盖至鸿蒙应用,为提供优异的性能体验保驾护航。
为解决这一问题,我们设计了一种基于 Trace Diff 的线下劣化诊断方案,首次将代码静态变更与动态性能劣化归因关联起来,能够精确定位到函数级别问题。我们开发了 hvigor-ohos-plugin 插件,实现了应用构建过程中业务代码的自动 Trace 插桩功能,大幅提升了 Trace 数据采集和处理的效率。为进一步消除代码结构或编译后方法名变化带来的干扰,我们提出了基于 Trace 树相似度匹配算法,有效降低了误报率。这些技术最终被集成到一个基于双包 Trace 数据对比的高精度性能劣化监控系统中。

听众收益:
了解鸿蒙客户端常见的性能测试手段,学习大型 App 鸿蒙专项防劣化的建设方案

HarmonyOS NEXT 移动测试生态体系建设之路

随着移动设备的普及和快速发展,鸿蒙 NEXT 作为国产操作系统,正逐渐占据重要地位。为确保鸿蒙 NEXT 应用的高质量和稳定性,建立一个高效、可靠的自动化测试体系至关重要。然而,鸿蒙系统的自动化测试面临着诸多挑战,如多设备兼容性、分布式特性、系统架构差异等。本议题旨在探讨如何构建一个全面、高效的鸿蒙 NEXT 移动自动化测试体系,以应对这些挑战,保障鸿蒙应用的高质量交付。

听众收益:
1.全面了解 HarmonyOS NEXT 系统的特点和自动化测试的挑战;
2.掌握 HarmonyOS NEXT 移动自动化测试工具和框架的使用;
3.学习 HarmonyOS NEXT 移动自动化测试的实践方法。

游戏专场

基于 AI 驱动的游戏自动化测试

在游戏自动化测试中,自动化过程非常关键的两部分:

  1. 自动化用例驱动游戏自动化运行
  2. 自动识别和发现游戏问题 在快速迭代的大型游戏中,开发/维护自动化用例、快速适配游戏变更,会需要较大的人力投入,本次分享将介绍如何将 AI 应用在游戏自动化用例生成和执行中,提升游戏测试的自动化程度和效果。

听众收益:
了解 AI 在游戏自动化测试中落地的方案

抖音云游戏质量保障体系

云游戏是一个新型业务。它的质量保障建设经验在业内一片空白,它的质量建设具有以下难点

  1. 技术链路复杂: 链路涉及云端计算、流媒体传输、终端虚拟化等复杂技术。基建又不太成熟,保障难度大
  2. 上下游强依赖: 作为基建能力对上支持多个抖音一级业务,本身又强依赖多个外部和底层业务能力。多业务耦合,质量风险高
  3. 体验建设难度大: 全链路涵盖云端渲染引擎→视频编码→流媒体传输→终端解码→用户交互,涉及技术节点 23 个任一环节异常都会导致卡顿、花屏、操作延迟等问题。端到端链路长,干扰因素多,问题感知、定位难度大。 本次分享将系统性介绍我们在云游戏质量建设中的踩坑经验

听众收益:
了解在云游戏这种流媒体新型业务的质量保障思路,从我们团队的解决方案中获取一些经验。

AI 驱动的测试用例生成:标准化与效率的双重提升

在游戏业务测试领域,测试用例的设计和编写占用大量资源投入,且各游戏项目组在用例编写习惯和游戏背景知识方面存在显著差异。在引入 AI 驱动用例生成解决方案时,我们面临多重挑战:
如何使各项目的用例设计实现标准规范化,建立统一测试语言?
如何让 AI 适配并学习各项目特有的游戏背景知识与专业术语?
如何解决 AI 用例生成中的速度瓶颈、结构一致性和上下文理解等技术难点?
如何为 QA 团队提供最流畅直观的 AI 用例生成体验,降低工具使用门槛?
本次分享将深入介绍我们团队在这几方面的探索路径和实际落地效果,展示 AI 如何在保障游戏测试质量的同时,显著提升效率。

听众收益:
技术洞察:深入了解 AI 在测试用例生成中的应用原理与技术难点,掌握 LLM、RAG 等前沿技术在测试领域的实际应用方法。
实践指南:获取可落地的 AI 测试用例生成方案,包括标准化流程设计、技术架构选择、用户体验优化等实用知识。
解决方案:针对游戏测试中的效率瓶颈和标准化挑战,提供经过实践验证的解决思路和具体实施步骤。
前沿视野:了解 AI 驱动的游戏测试未来发展趋势,为测试团队转型与个人成长提供方向性指导。
ROI 参考:通过真实项目数据,获取 AI 测试实施的投入产出比分析框架,辅助技术决策与资源规划。
本次分享将为游戏测试专业人士、技术管理者及对测试创新感兴趣的开发者提供全面的 AI 测试用例生成解决方案,帮助团队在保障质量的同时实现效率的质的飞跃。

内容向格斗游戏自动化测试方案

在内容向格斗游戏的长期运营中,面临一系列挑战:
1、存量内容众多,资源索引复杂,在版本迭代的持续优化和调整中质量难以保障;
2、角色日益复杂,边界情况和复杂路径问题突出;
3、长流程玩法需要设备数量众多。

听众收益:
了解内容向格斗游戏运营中遇到的挑战以及团队结合自动化的解决方案。

淘宝 AI+ 质量

共收到 4 条回复 时间 点赞

期待一下

怎么购票呢?

回复内容未通过审核,暂不显示
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up