在过去的一年里,Voice Agent 的开发者们经历了一场集体 “祛魅”。一个被反复提及、逐渐成型的行业共识是:“Evals are back”(测评回归)。

这是因为行业遇到了共同的瓶颈:基础模型在通用学术榜单上卷得难解难分,一进到真实的业务电话里,表现往往不如人意。一个能写出精美诗歌的 Agent,可能听不懂带口音的 “退款” 请求,或者在用户情绪激动时不知道该如何安抚。这就带来一个更现实的问题:在充斥着打断、噪音和情绪波动的真实通话中,我们到底需要什么样的 Voice Agent?

图片

最近,美团、声网 与 Xbench 三方联合构建了一个名为 VoiceAgentEval 的基准测试,主要解决现有测试方法的三个关键问题:数据集多样性不足、用户模拟不真实、评估指标不准确。

测试结果表明,大语言模型在外呼对话场景中已经达到了相当的基础能力,并展现出了各自的适用性。这说明,Voice Agent 的发展已经跨过了 “参数为王” 的阶段,进入了 “场景适配” 的新时期。

论文链接: 

https://xbench.org/reports/zmbbhdtfc5ui5qx5xjgquusj

VoiceAgentEval 在做什么

在人机对话场景中,用户不仅关注 Agent 是否提供了正确的反馈,如解答疑问、完成任务等;良好的、更像真人间交互体验也是非常重要的评估指标。

因此,区别于传统测评, VoiceAgentEval 不再执着于考察 Agent 到底 “会不会说话”,而是同时从 “有没有说对” 和 “说的好不好” 两个层面来评估:

  1. 任务流程遵循度(Task Flow Compliance,TFC): AI 客服是否按照业务流程办事,是否真正解决用户的问题

  2. 一般交互能力(General Interaction Capability,GIC):  AI 客服的响应是否自然,回复内容是否与谈话主题相关,是否能响应用户的负面情绪等。

换句话说,这套评估不是在挑 “谁最聪明”,而是看谁最适合在真实通话场景下干活

在 VoiceAgentEval 中,这两类能力通过三个紧密衔接的设计进行评估:

基准构建(Benchmark)

从真实外呼业务中抽象出 6 大商业领域(客服、销售、招聘,金融风控、调研以及主动关怀)、 30 个子场景,包括银行投诉、电商退货、面试邀约等在真实世界里出现频率最高的情况。丰富了数据集的多样性与种类,覆盖业务中多样的场景,也就是现实中最容易出现问题的对话。

用户模拟器(User Simulator)

本次测评用 LLM 模拟了 5 个性格、背景、沟通风格都不相同的用户,结合 30 个真实业务的子场景,形成 150 种情况下的虚拟用户对话评估。这些虚拟用户有的态度友好,有的犹豫不决,甚至有的情绪抗拒。通过用户模拟器,输出每一个 Agent 在这 150 种真实场景中的 TFC 和 GIC 得分并加权计算出最终测试结果,能够有效的评估 Agent 在复杂场景下遵循任务流程与交互能力的平衡程度。

评估方法(Evaluation)

VoiceAgentEval 通过文本和语音,对 Agent 进行 TFC 和 GIC 的双维度评估

在 TFC 层面,重点关注:

在 TIC 层面,评测关注的是:

也就是说,这套评测是在模拟一通真实业务电话,看看它能不能把事办完、还能不能让人愿意继续聊

需要说明的是,VoiceAgentEval 并非在离线环境中对模型进行脚本化测试,而是基于声网在实时语音与对话式 AI 领域长期积累的工程能力,搭建出一套真实可运行的 Agent 架构来完成评测流程。因此,评测中的语音交互、流程切换与被打断后的恢复,均通过一条的真实 Voice Agent 链路完成,而非通过静态对话拼接。这也是 VoiceAgentEval 能够在实验条件下逼近真实业务通话复杂度的基础。

测评启示:没有最好,只有最合适

在这套实时语音交互评测环境中,测试结果并不意味着 Agent 的绝对高低,而是它们在特定外呼任务设计、用户模拟方式以及评分权重设定 下所呈现出的行为差异。

即便如此,这些差异依然为开发者理解模型在高度贴近真实外呼场景中的 “行为倾向” 提供了一张有价值的参考图谱:

不仅在外呼场景,随着 Voice Agent 越来越多地走向 AIoT、情感陪伴等日常生活场景,对交互的评测,也正在从 “是否听清需求、是否能顺畅对话”,延伸到更底层的环境与语境理解能力。

在这一层面上,评测维度将不可避免地扩展到对掌声、敲门声等声学事件的感知,对所处环境的声学场景判断,以及对方言、间接表达和语境变化的识别。这些能力决定的,不只是一次对话能否完成,而是 Voice Agent 是否具备在真实环境中持续交互的基础条件。

共同的目标:从探索走向落地

这套评测体系的发布,其意义不在于分出高下,而在于展示了 Voice Agent 进化的必经之路:场景 + 技术的双重融合

对于整个开发者社区而言,这传达了两个积极的信号:

  1. 选型更从容: 我们不必再盲目追求 “最强” 模型,而是可以根据业务需求(是重逻辑还是重体验)找到最匹配的那一块拼图。

  2. 研发更聚焦: 开发者不必重复造轮子,可以将宝贵的精力投入到对业务逻辑的打磨上。

结语:共建行业的 “度量衡”

AI 的进化速度太快,单打独斗的时代已经过去。

我们解读这篇论文,是希望所有 Voice Agent 的从业者关注这种 “场景化测评” 的趋势。VoiceAgentEval 给出了外呼场景的一种答案,更像是一次示范:如何把一个具体业务,拆解成可被复用的评测单元。

当 Evals 从 “纸上谈兵” 回归到 “实战演练”,当底层的实时交互框架逐步成熟,Voice Agent 才有可能真正走出实验室,接受千行百业的复杂检验。这扇门是否能被真正推开,最终取决于行业能否持续围绕具体场景,持续形成可被复用、可被讨论、也可被不断修正的共同度量。

参考链接

xbench 官网: https://xbench.org/

VoiceAgentEval 新闻稿:

https://xbench.org/reports/zmbbhdtfc5ui5qx5xjgquusj

声网对话式 AI 引擎:

https://www.shengwang.cn/ConversationalAI/

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

图片


↙↙↙阅读原文可查看相关链接,并与作者交流