AI测试端侧 AI 时代，每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

RTE开发者社区 · 2025年03月11日 · 4289 次阅读

大家好～这是 Voice Agent 学习笔记系列的第二十二篇。我是课代表十三🧑‍💻。

2 月 26 日，Amazon 发布了新一代 Alexa+，为全球 6 亿台智能设备终端瞬间赋予了新一代 AI 能力。 现场演示令人惊艳：Alexa+ 不仅能根据语音指令无缝切换播放设备，实现音乐和视频在不同房间的流转，还能与安防摄像头联动，自主调取与用户指令相关的视频片段。

更令人印象深刻的是，它能够完成各种复杂指令，如根据家庭成员的偏好选择餐厅并预订，叫出租车去机场接客人，并实时同步出租车信息等等。

将 AI 融入端侧的远不止亚马逊。2025 年，三星、苹果等科技巨头预计将 GenAI 全面融入智能手机，而小米等智能音箱等家用设备、以及各家汽车智能座舱也将全面拥抱 GenAI——生成式 AI 正以前所未有的速度走进千家万户，融入日常生活的方方面面。

那么，GenAI 目前在端侧的技术发展到了什么程度？ 面对日益普及的端侧 AI，潜在的安全隐患又该如何规避？未来的交互界面是 GUI 的天下，还是 LUI 的时代？AI 将如何重塑我们的智能家居体验？在端侧智能化的浪潮中，开发者们又将迎来哪些全新的机遇，又将面临哪些挑战？

为了解答这些疑问，RTE 开发者社区特别邀请到了来自智谱、TEN 和声网的多位实时多模态 AI 专家共同探讨端侧 AI 浪潮下的挑战和机遇。以下是直播的一些精彩观点的总结，希望能给大家提供一些新的思考。

同时，我们也整理了近 2 万字的完整版文字回顾，点击文末的「阅读全文」即可获取！关注「RTE 开发者社区」视频号，点击「直播回放」，也可以查看完整视频。

期待与你在 RTE 开发者社区交流更多 Voice Agent 相关话题！enjoy~

亚马逊 Alexa+ 新品亮点：

贾世坤：

Alexa 新品的功能特性有两大亮点：
- 语音实时编辑购物清单： AI 即时互动，视觉反馈提升人机交互感知度，实现白盒化交互。
- 日程管理能力： 前景广阔，但涉及大量数据交互，需谨慎把控潜在安全隐患。
未来期待： Agent 和 Agent 之间的协作（譬如最近的 GibberLink），创造有趣的应用场景。

Plutoless:

Alexa 新品仍定位为助手，帮助用户完成各项任务。
未来方向： AI Agent 集成到各种设备中，通过语音直接控制家居设备，实现设备间的隐性连接与协作。
担忧： 家居设备间互联可能让人感到不安，语言适配仍面临挑战。

端侧 AI 的更多应用场景：除了智能音箱，AI 还能做什么？

贾世坤：

车载应用： 是目前最被看好的应用场景，尤其是在座舱控制和车外录制设备管理方面。
Agent 间协作： 通过 Function Call 等技术，集成在中控 IoT 等终端设备上的 AI Agent 实现互动。

实时语音 AI 的进展与挑战

Plutoless:

实时语音 AI 主要有两种实现方式：
- 级联方式： 语音识别->文本->大模型->TTS。优势：成本低；劣势：延迟高。
- 端到端模式： 音频输入->模型处理->音频输出。优势：实时性强，情感识别好；劣势：灵活性低。
实时语音技术面临的挑战：网络、音频处理与幻觉
- 网络问题： 终端硬件性能不足，云端运行依赖网络连接，尤其是在 last mile。解决方案：类似 RTC 技术进行优化。
- 音频处理： 声音增益、降噪、回声消除等细节问题，影响用户体验。
幻觉问题： 音频 LLM 驱动的 AI Agent 应用于实际生产环境时，幻觉会严重损害用户体验。

规避潜在风险，设计「有益幻觉」

贾世坤：

技术层面： 有效排除有害信息，例如使用 Self-Check 方式（前端生成，后端自检测）。
产品层面： 授权机制（权限隔离和角色权限隔离），交互层面提供足够的空间纠正错误，针对儿童提供便捷的管理方式。
设计「有益幻觉」： 例如故事创作、图像创新设计等。

Plutoless:

避免大模型直接执行危险操作： 提供充分的提示信息，老年人和儿童应以更简化的方式呈现信息，并告知信息来源的准确性未知。

GUI vs. LUI：人机交互的未来趋势

Plutoless:

LUI（语音用户界面）和 GUI（图形用户界面）不是简单的替代关系，而是一种协作关系。
LUI 优势： 更自然、高效的交互方式，适用于语音订票等简单指令场景。
GUI 优势： 更直观、精准的控制，适用于需要确认多个选项的复杂场景。
展望： LUI 配合多模态交互方式（例如眼球追踪），或许能完全取代 GUI，但这还有很长的路要走。开发者需要重新思考 UI 设计，将语音、视觉、触觉等多种模态融合在一起。

端侧能力：开发者能做什么？硬件限制下的技术选择

贾世坤：

商业化部分： 端侧的多模态模型（性能快，可端侧部署），语音合成（人机交互感受），端侧语言模型（10B 以下规模）。
关注方向： 端侧的集成工程能力（整合设备算力、语音识别、大型模型、语音合成），端云结合的方案（通过模型训练或强化学习进行优化）。

Plutoless:

策略： 简单任务在端侧完成，复杂、计算量大的任务通过云端 AI 完成。纯粹入门或体验使用云端，想在端侧运行特定功能时模型尺寸受限，适合处理相对固定和简单的任务。
衡量指标： 延迟、发热量、耗电量。

AIoT：智能家居的变革与标准化

贾世坤：

提升： 能够执行的任务更加丰富，达到了人们对智能家居的预期；AI 带来的上下文记忆能力，使系统能够熟悉用户并提升交互效果。

Plutoless:

标准化： AI 加速智能家居平台的标准化进程，使得家电使用不再需要查阅说明书，设备能够更快速地理解意图，并具备更多能力、逻辑、判断能力甚至主动性。

多设备协同：未来的家庭物联网如何运转？

Plutoless:

现状： Alexa Plus 已经展现出了一定的协同能力，设备能够共享上下文信息。
未来： 发展到 Multi-agents 模式，不同的家电具备各自专业的 AI 能力，互相协作解决复杂问题。

Agent Store：AI 助手的分发平台，未来应用商店的新形态

贾世坤：

愿景： 长期看，会出现类似「AI 员工招聘社区」，而非 Agent Store 的形式。
平台价值： 只要有平台，大家一定会在平台上进行价值互换，实现需求与解决方案的匹配。

Plutoless:

现状： Alexa 和 Home Assistant 是初步的例子，未来 Home Assistant 很可能出现大量类似 GPTs 的基于平台开发的各种人工智能体。
趋势： 将来可能会成为下一个类似手机 APP Store 的分发入口，使得每一个家居设备都变成任意你想要的 AI Agent。

如何将推理模型与端侧实时交互场景相结合？

贾世坤：

策略： 挖掘更多可控的新场景，短期内将模型部署在云端，对于复杂操作的任务，借助云端模型进行推理或执行。
交互： 采用白盒化或后台推理，通过与硬件设备结合的方式进行交互，尽可能地将推理过程后置。

如何填补模型思考带来的空白期？

贾世坤： 短期内，将推理过程白盒化，或者让设备根据家庭近一个月的记录创作家庭瞬间或家庭记录，对于非即时场景，用户接受度相对较高。

如何看待新型端侧设备以及未来 AI 玩具的发展？

Plutoless:

看好类型： 眼镜和陪伴类玩具（例如主要面向儿童的毛绒玩具）。
眼镜： 靠近人的大脑和感官系统，能够较为真实地还原人所见、所听以及思考方式。
玩偶： 提供类人的智能，使用户真正感受到它不是一个 AI Bot，而是一个能够互动、提供帮助、提供情绪价值，甚至能够与孩子聊天的伙伴。
AI 玩具的「iPhone 时刻」： 更人性化的交互方式，能否带来足够的沉浸感，能否清晰地听到我的声音、能否真正理解我的意图，能否让我产生持续挖掘、沟通和交谈的欲望，真正让我忘却它是一个 AI，并愿意持续与之交互。

观众 Q&A 环节

如何为端到端的 Voice Agent 增加不同的智能化能力？

贾世坤：

采用基于大模型技术，利用工具作为中间的事件传输或模型推理的组成部分。
通过 Function Call 的工具调用获取故事内容或大纲，然后逐步讲述。

自行实现三段式接入 vs TEN 框架，开发体验或其他方面会有哪些差异？

Plutoless:

自行实现： 延迟高、性能差、效果不佳，缺乏对音视频数据处理的深入理解。
TEN 框架： 解决音视频处理逻辑、网络和音频处理方面的问题，模块可插拔、可复用，线程模型分离音视频数据传输。
TEN 框架的优势： 使用 TEN Framework 就像是用乐高搭积木一样，我们提供标准化的积木组件，开发者只需按照自己的需求进行组合。而开发者自行进行三段式接入，则更像是在沙地上用沙子从头搭建城堡，并且很容易犯错。

AI 发展最需要解决的技术难点是什么？

贾世坤： 基座模型能力的提升，提高推理的效果，降低推理的性能消耗，从而为产品设计和用户交互带来更大的空间。

未来 AI 的算力部署方式：云端还是终端？

贾世坤： 短期来看，是云端和终端并行发展或协作的方式。长期来看，取决于技术发展方向。如果目标是实现人人可用的 AI 普及，那么可能更偏重终端。

MCP 协议：保护数据安全前提下，让终端用户享受到产品价值

Plutoless： MCP 协议本质上定义了一套协议，通过统一的方式定义与大模型的数据连接，从而允许用户仅在必要范围内暴露与大模型的交互，在保护自身数据安全的前提下，让终端用户享受到产品价值。对于非大模型厂商而言，几乎是必需的。

未来展望 & 社区连接

Plutoless: 我们将持续深耕 AI 实时互动领域，近期 TEN 将上线对 Home Assistant 的支持，实现对小米设备的使用，并推出易用的 Graph Designer 编排模块。欢迎在 GitHub 搜索「TEN Agent」或「TEN Framework」探索我们的开源项目。也可以来线上 Demo: https://agent.theten.ai/ 和 https://ten.rtcdeveloper.cn/ 体验智谱 GLM 实时 API + TEN 的 demo。

贾世坤: 我们将持续提升模型和推理能力，并开放更多 API 供开发者使用。访问 Bigmodel.cn 即可了解我们提供的 API 和模型工具。与 TEN 合作的 GLM-Realtime API 已在 TEN 和智谱开放平台上线。欢迎大家访问 BigModel，交流需求，共建端到端模型的开发能力。

我们也整理了近 2 万字的完整版文字回顾，点击即可获取！关注「RTE 开发者社区」视频号，点击「直播回放」，也可以查看完整视频。

🧑‍💻课代表留言：希望早日见到智能音箱自己指使扫地机器人的那一天🙌