大家好～这是 Voice Agent 学习笔记系列的第二十二篇。我是课代表十三🧑‍💻。

2 月 26 日，Amazon 发布了新一代 Alexa+，为全球 6 亿台智能设备终端瞬间赋予了新一代 AI 能力。 现场演示令人惊艳：Alexa+ 不仅能根据语音指令无缝切换播放设备，实现音乐和视频在不同房间的流转，还能与安防摄像头联动，自主调取与用户指令相关的视频片段。

更令人印象深刻的是，它能够完成各种复杂指令，如根据家庭成员的偏好选择餐厅并预订，叫出租车去机场接客人，并实时同步出租车信息等等。

将 AI 融入端侧的远不止亚马逊。2025 年，三星、苹果等科技巨头预计将 GenAI 全面融入智能手机，而小米等智能音箱等家用设备、以及各家汽车智能座舱也将全面拥抱 GenAI——生成式 AI 正以前所未有的速度走进千家万户，融入日常生活的方方面面。

那么，GenAI 目前在端侧的技术发展到了什么程度？ 面对日益普及的端侧 AI，潜在的安全隐患又该如何规避？未来的交互界面是 GUI 的天下，还是 LUI 的时代？AI 将如何重塑我们的智能家居体验？在端侧智能化的浪潮中，开发者们又将迎来哪些全新的机遇，又将面临哪些挑战？

为了解答这些疑问，RTE 开发者社区特别邀请到了来自智谱、TEN 和声网的多位实时多模态 AI 专家共同探讨端侧 AI 浪潮下的挑战和机遇。以下是直播的一些精彩观点的总结，希望能给大家提供一些新的思考。

同时，我们也整理了近 2 万字的完整版文字回顾，点击文末的「阅读全文」即可获取！关注「RTE 开发者社区」视频号，点击「直播回放」，也可以查看完整视频。

期待与你在 RTE 开发者社区交流更多 Voice Agent 相关话题！enjoy~

亚马逊 Alexa+ 新品亮点：

贾世坤：

Alexa 新品的功能特性有两大亮点：
- 语音实时编辑购物清单： AI 即时互动，视觉反馈提升人机交互感知度，实现白盒化交互。
- 日程管理能力： 前景广阔，但涉及大量数据交互，需谨慎把控潜在安全隐患。
未来期待： Agent 和 Agent 之间的协作（譬如最近的 GibberLink），创造有趣的应用场景。

Plutoless:

Alexa 新品仍定位为助手，帮助用户完成各项任务。
未来方向： AI Agent 集成到各种设备中，通过语音直接控制家居设备，实现设备间的隐性连接与协作。
担忧： 家居设备间互联可能让人感到不安，语言适配仍面临挑战。

端侧 AI 的更多应用场景：除了智能音箱，AI 还能做什么？

贾世坤：

车载应用： 是目前最被看好的应用场景，尤其是在座舱控制和车外录制设备管理方面。
Agent 间协作： 通过 Function Call 等技术，集成在中控 IoT 等终端设备上的 AI Agent 实现互动。

实时语音 AI 的进展与挑战

Plutoless:

实时语音 AI 主要有两种实现方式：
- 级联方式： 语音识别->文本->大模型->TTS。优势：成本低；劣势：延迟高。
- 端到端模式： 音频输入->模型处理->音频输出。优势：实时性强，情感识别好；劣势：灵活性低。
实时语音技术面临的挑战：网络、音频处理与幻觉
- 网络问题： 终端硬件性能不足，云端运行依赖网络连接，尤其是在 last mile。解决方案：类似 RTC 技术进行优化。
- 音频处理： 声音增益、降噪、回声消除等细节问题，影响用户体验。
幻觉问题： 音频 LLM 驱动的 AI Agent 应用于实际生产环境时，幻觉会严重损害用户体验。

规避潜在风险，设计「有益幻觉」

贾世坤：

技术层面： 有效排除有害信息，例如使用 Self-Check 方式（前端生成，后端自检测）。
产品层面： 授权机制（权限隔离和角色权限隔离），交互层面提供足够的空间纠正错误，针对儿童提供便捷的管理方式。
设计「有益幻觉」： 例如故事创作、图像创新设计等。

Plutoless:

避免大模型直接执行危险操作： 提供充分的提示信息，老年人和儿童应以更简化的方式呈现信息，并告知信息来源的准确性未知。

GUI vs. LUI：人机交互的未来趋势

Plutoless:

LUI（语音用户界面）和 GUI（图形用户界面）不是简单的替代关系，而是一种协作关系。
LUI 优势： 更自然、高效的交互方式，适用于语音订票等简单指令场景。
GUI 优势： 更直观、精准的控制，适用于需要确认多个选项的复杂场景。
展望： LUI 配合多模态交互方式（例如眼球追踪），或许能完全取代 GUI，但这还有很长的路要走。开发者需要重新思考 UI 设计，将语音、视觉、触觉等多种模态融合在一起。

端侧能力：开发者能做什么？硬件限制下的技术选择

贾世坤：

商业化部分： 端侧的多模态模型（性能快，可端侧部署），语音合成（人机交互感受），端侧语言模型（10B 以下规模）。
关注方向： 端侧的集成工程能力（整合设备算力、语音识别、大型模型、语音合成），端云结合的方案（通过模型训练或强化学习进行优化）。

Plutoless:

策略： 简单任务在端侧完成，复杂、计算量大的任务通过云端 AI 完成。纯粹入门或体验使用云端，想在端侧运行特定功能时模型尺寸受限，适合处理相对固定和简单的任务。
衡量指标： 延迟、发热量、耗电量。

AIoT：智能家居的变革与标准化

贾世坤：

提升： 能够执行的任务更加丰富，达到了人们对智能家居的预期；AI 带来的上下文记忆能力，使系统能够熟悉用户并提升交互效果。

Plutoless:

标准化： AI 加速智能家居平台的标准化进程，使得家电使用不再需要查阅说明书，设备能够更快速地理解意图，并具备更多能力、逻辑、判断能力甚至主动性。

多设备协同：未来的家庭物联网如何运转？

Plutoless:

现状： Alexa Plus 已经展现出了一定的协同能力，设备能够共享上下文信息。
未来： 发展到 Multi-agents 模式，不同的家电具备各自专业的 AI 能力，互相协作解决复杂问题。

Agent Store：AI 助手的分发平台，未来应用商店的新形态

贾世坤：

愿景： 长期看，会出现类似「AI 员工招聘社区」，而非 Agent Store 的形式。
平台价值： 只要有平台，大家一定会在平台上进行价值互换，实现需求与解决方案的匹配。

Plutoless:

现状： Alexa 和 Home Assistant 是初步的例子，未来 Home Assistant 很可能出现大量类似 GPTs 的基于平台开发的各种人工智能体。
趋势： 将来可能会成为下一个类似手机 APP Store 的分发入口，使得每一个家居设备都变成任意你想要的 AI Agent。

如何将推理模型与端侧实时交互场景相结合？

贾世坤：

策略： 挖掘更多可控的新场景，短期内将模型部署在云端，对于复杂操作的任务，借助云端模型进行推理或执行。
交互： 采用白盒化或后台推理，通过与硬件设备结合的方式进行交互，尽可能地将推理过程后置。

如何填补模型思考带来的空白期？

贾世坤： 短期内，将推理过程白盒化，或者让设备根据家庭近一个月的记录创作家庭瞬间或家庭记录，对于非即时场景，用户接受度相对较高。

如何看待新型端侧设备以及未来 AI 玩具的发展？

Plutoless:

看好类型： 眼镜和陪伴类玩具（例如主要面向儿童的毛绒玩具）。
眼镜： 靠近人的大脑和感官系统，能够较为真实地还原人所见、所听以及思考方式。
玩偶： 提供类人的智能，使用户真正感受到它不是一个 AI Bot，而是一个能够互动、提供帮助、提供情绪价值，甚至能够与孩子聊天的伙伴。
AI 玩具的「iPhone 时刻」： 更人性化的交互方式，能否带来足够的沉浸感，能否清晰地听到我的声音、能否真正理解我的意图，能否让我产生持续挖掘、沟通和交谈的欲望，真正让我忘却它是一个 AI，并愿意持续与之交互。

观众 Q&A 环节

如何为端到端的 Voice Agent 增加不同的智能化能力？

贾世坤：

采用基于大模型技术，利用工具作为中间的事件传输或模型推理的组成部分。
通过 Function Call 的工具调用获取故事内容或大纲，然后逐步讲述。

自行实现三段式接入 vs TEN 框架，开发体验或其他方面会有哪些差异？

Plutoless:

自行实现： 延迟高、性能差、效果不佳，缺乏对音视频数据处理的深入理解。
TEN 框架： 解决音视频处理逻辑、网络和音频处理方面的问题，模块可插拔、可复用，线程模型分离音视频数据传输。
TEN 框架的优势： 使用 TEN Framework 就像是用乐高搭积木一样，我们提供标准化的积木组件，开发者只需按照自己的需求进行组合。而开发者自行进行三段式接入，则更像是在沙地上用沙子从头搭建城堡，并且很容易犯错。

AI 发展最需要解决的技术难点是什么？

贾世坤： 基座模型能力的提升，提高推理的效果，降低推理的性能消耗，从而为产品设计和用户交互带来更大的空间。

未来 AI 的算力部署方式：云端还是终端？

贾世坤： 短期来看，是云端和终端并行发展或协作的方式。长期来看，取决于技术发展方向。如果目标是实现人人可用的 AI 普及，那么可能更偏重终端。

MCP 协议：保护数据安全前提下，让终端用户享受到产品价值

Plutoless： MCP 协议本质上定义了一套协议，通过统一的方式定义与大模型的数据连接，从而允许用户仅在必要范围内暴露与大模型的交互，在保护自身数据安全的前提下，让终端用户享受到产品价值。对于非大模型厂商而言，几乎是必需的。

未来展望 & 社区连接

Plutoless: 我们将持续深耕 AI 实时互动领域，近期 TEN 将上线对 Home Assistant 的支持，实现对小米设备的使用，并推出易用的 Graph Designer 编排模块。欢迎在 GitHub 搜索「TEN Agent」或「TEN Framework」探索我们的开源项目。也可以来线上 Demo: https://agent.theten.ai/ 和 https://ten.rtcdeveloper.cn/ 体验智谱 GLM 实时 API + TEN 的 demo。

贾世坤: 我们将持续提升模型和推理能力，并开放更多 API 供开发者使用。访问 Bigmodel.cn 即可了解我们提供的 API 和模型工具。与 TEN 合作的 GLM-Realtime API 已在 TEN 和智谱开放平台上线。欢迎大家访问 BigModel，交流需求，共建端到端模型的开发能力。

我们也整理了近 2 万字的完整版文字回顾，点击即可获取！关注「RTE 开发者社区」视频号，点击「直播回放」，也可以查看完整视频。

🧑‍💻课代表留言：希望早日见到智能音箱自己指使扫地机器人的那一天🙌

更多 Voice Agent 学习笔记：

世界最炙手可热的语音 AI 公司，举办了一场全球黑客松，冠军作品你可能已经看过

多模态 AI 怎么玩？这里有 18 个脑洞

AI 重塑宗教体验，语音 Agent 能否成为突破点？

对话 TalktoApps 创始人：Voice AI 提高了我五倍的生产力，语音输入是人机交互的未来

2024，语音 AI 元年；2025，Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管：打造通用 AI 助理，主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元，并预测了 2025 年语音技术趋势

语音即入口：AI 语音交互如何重塑下一代智能应用

↙↙↙阅读原文可查看相关链接，并与作者交流