AI测试 端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

RTE开发者社区 · 2025年03月11日 · 589 次阅读

大家好~这是 Voice Agent 学习笔记系列的第二十二篇。我是课代表十三🧑‍💻。

2 月 26 日,Amazon 发布了新一代 Alexa+,为全球 6 亿台智能设备终端瞬间赋予了新一代 AI 能力。 现场演示令人惊艳:Alexa+ 不仅能根据语音指令无缝切换播放设备,实现音乐和视频在不同房间的流转,还能与安防摄像头联动,自主调取与用户指令相关的视频片段。

更令人印象深刻的是,它能够完成各种复杂指令,如根据家庭成员的偏好选择餐厅并预订,叫出租车去机场接客人,并实时同步出租车信息等等。

将 AI 融入端侧的远不止亚马逊。2025 年,三星、苹果等科技巨头预计将 GenAI 全面融入智能手机,而小米等智能音箱等家用设备、以及各家汽车智能座舱也将全面拥抱 GenAI——生成式 AI 正以前所未有的速度走进千家万户,融入日常生活的方方面面。

那么,GenAI 目前在端侧的技术发展到了什么程度? 面对日益普及的端侧 AI,潜在的安全隐患又该如何规避?未来的交互界面是 GUI 的天下,还是 LUI 的时代?AI 将如何重塑我们的智能家居体验?在端侧智能化的浪潮中,开发者们又将迎来哪些全新的机遇,又将面临哪些挑战?

为了解答这些疑问,RTE 开发者社区特别邀请到了来自智谱、TEN 和声网的多位实时多模态 AI 专家共同探讨端侧 AI 浪潮下的挑战和机遇。以下是直播的一些精彩观点的总结,希望能给大家提供一些新的思考。

同时,我们也整理了近 2 万字的完整版文字回顾,点击文末的「阅读全文」即可获取!关注「RTE 开发者社区」视频号,点击「直播回放」,也可以查看完整视频。

期待与你在 RTE 开发者社区交流更多 Voice Agent 相关话题!enjoy~

亚马逊 Alexa+ 新品亮点:

贾世坤:

  • Alexa 新品的功能特性有两大亮点:

    • 语音实时编辑购物清单: AI 即时互动,视觉反馈提升人机交互感知度,实现白盒化交互。
    • 日程管理能力: 前景广阔,但涉及大量数据交互,需谨慎把控潜在安全隐患。
  • 未来期待: Agent 和 Agent 之间的协作(譬如最近的 GibberLink),创造有趣的应用场景。

Plutoless:

  • Alexa 新品仍定位为助手,帮助用户完成各项任务。

  • 未来方向: AI Agent 集成到各种设备中,通过语音直接控制家居设备,实现设备间的隐性连接与协作。

  • 担忧: 家居设备间互联可能让人感到不安,语言适配仍面临挑战。

端侧 AI 的更多应用场景:除了智能音箱,AI 还能做什么?

贾世坤:

  • 车载应用: 是目前最被看好的应用场景,尤其是在座舱控制和车外录制设备管理方面。

  • Agent 间协作: 通过 Function Call 等技术,集成在中控 IoT 等终端设备上的 AI Agent 实现互动。

实时语音 AI 的进展与挑战

Plutoless:

  • 实时语音 AI 主要有两种实现方式:

    • 级联方式: 语音识别->文本->大模型->TTS。优势:成本低;劣势:延迟高。
    • 端到端模式: 音频输入->模型处理->音频输出。优势:实时性强,情感识别好;劣势:灵活性低。
  • 实时语音技术面临的挑战:网络、音频处理与幻觉

    • 网络问题: 终端硬件性能不足,云端运行依赖网络连接,尤其是在 last mile。解决方案:类似 RTC 技术进行优化。
    • 音频处理: 声音增益、降噪、回声消除等细节问题,影响用户体验。
  • 幻觉问题: 音频 LLM 驱动的 AI Agent 应用于实际生产环境时,幻觉会严重损害用户体验。

规避潜在风险,设计「有益幻觉」

贾世坤:

  • 技术层面: 有效排除有害信息,例如使用 Self-Check 方式(前端生成,后端自检测)。

  • 产品层面: 授权机制(权限隔离和角色权限隔离),交互层面提供足够的空间纠正错误,针对儿童提供便捷的管理方式。

  • 设计「有益幻觉」: 例如故事创作、图像创新设计等。

Plutoless:

  • 避免大模型直接执行危险操作: 提供充分的提示信息,老年人和儿童应以更简化的方式呈现信息,并告知信息来源的准确性未知。

GUI vs. LUI:人机交互的未来趋势

Plutoless:

  • LUI(语音用户界面)和 GUI(图形用户界面)不是简单的替代关系,而是一种协作关系。

  • LUI 优势: 更自然、高效的交互方式,适用于语音订票等简单指令场景。

  • GUI 优势: 更直观、精准的控制,适用于需要确认多个选项的复杂场景。

  • 展望: LUI 配合多模态交互方式(例如眼球追踪),或许能完全取代 GUI,但这还有很长的路要走。开发者需要重新思考 UI 设计,将语音、视觉、触觉等多种模态融合在一起。

端侧能力:开发者能做什么?硬件限制下的技术选择

贾世坤:

  • 商业化部分: 端侧的多模态模型(性能快,可端侧部署),语音合成(人机交互感受),端侧语言模型(10B 以下规模)。

  • 关注方向: 端侧的集成工程能力(整合设备算力、语音识别、大型模型、语音合成),端云结合的方案(通过模型训练或强化学习进行优化)。

Plutoless:

  • 策略: 简单任务在端侧完成,复杂、计算量大的任务通过云端 AI 完成。纯粹入门或体验使用云端,想在端侧运行特定功能时模型尺寸受限,适合处理相对固定和简单的任务。

  • 衡量指标: 延迟、发热量、耗电量。

AIoT:智能家居的变革与标准化

贾世坤:

  • 提升: 能够执行的任务更加丰富,达到了人们对智能家居的预期;AI 带来的上下文记忆能力,使系统能够熟悉用户并提升交互效果。

Plutoless:

  • 标准化: AI 加速智能家居平台的标准化进程,使得家电使用不再需要查阅说明书,设备能够更快速地理解意图,并具备更多能力、逻辑、判断能力甚至主动性。

多设备协同:未来的家庭物联网如何运转?

Plutoless:

  • 现状: Alexa Plus 已经展现出了一定的协同能力,设备能够共享上下文信息。

  • 未来: 发展到 Multi-agents 模式,不同的家电具备各自专业的 AI 能力,互相协作解决复杂问题。

Agent Store:AI 助手的分发平台,未来应用商店的新形态

贾世坤:

  • 愿景: 长期看,会出现类似「AI 员工招聘社区」,而非 Agent Store 的形式。

  • 平台价值: 只要有平台,大家一定会在平台上进行价值互换,实现需求与解决方案的匹配。

Plutoless:

  • 现状: Alexa 和 Home Assistant 是初步的例子,未来 Home Assistant 很可能出现大量类似 GPTs 的基于平台开发的各种人工智能体。

  • 趋势: 将来可能会成为下一个类似手机 APP Store 的分发入口,使得每一个家居设备都变成任意你想要的 AI Agent。

如何将推理模型与端侧实时交互场景相结合?

贾世坤:

  • 策略: 挖掘更多可控的新场景,短期内将模型部署在云端,对于复杂操作的任务,借助云端模型进行推理或执行。

  • 交互: 采用白盒化或后台推理,通过与硬件设备结合的方式进行交互,尽可能地将推理过程后置。

如何填补模型思考带来的空白期?

  • 贾世坤: 短期内,将推理过程白盒化,或者让设备根据家庭近一个月的记录创作家庭瞬间或家庭记录, 对于非即时场景,用户接受度相对较高。

如何看待新型端侧设备以及未来 AI 玩具的发展?

Plutoless:

  • 看好类型: 眼镜和陪伴类玩具(例如主要面向儿童的毛绒玩具)。

  • 眼镜: 靠近人的大脑和感官系统,能够较为真实地还原人所见、所听以及思考方式。

  • 玩偶: 提供类人的智能,使用户真正感受到它不是一个 AI Bot,而是一个能够互动、提供帮助、提供情绪价值,甚至能够与孩子聊天的伙伴。

  • AI 玩具的「iPhone 时刻」: 更人性化的交互方式,能否带来足够的沉浸感,能否清晰地听到我的声音、能否真正理解我的意图,能否让我产生持续挖掘、沟通和交谈的欲望,真正让我忘却它是一个 AI,并愿意持续与之交互。

观众 Q&A 环节

如何为端到端的 Voice Agent 增加不同的智能化能力?

贾世坤:

  • 采用基于大模型技术,利用工具作为中间的事件传输或模型推理的组成部分。

  • 通过 Function Call 的工具调用获取故事内容或大纲,然后逐步讲述。

自行实现三段式接入 vs TEN 框架,开发体验或其他方面会有哪些差异?

Plutoless:

  • 自行实现: 延迟高、性能差、效果不佳,缺乏对音视频数据处理的深入理解。

  • TEN 框架: 解决音视频处理逻辑、网络和音频处理方面的问题,模块可插拔、可复用,线程模型分离音视频数据传输。

  • TEN 框架的优势: 使用 TEN Framework 就像是用乐高搭积木一样,我们提供标准化的积木组件,开发者只需按照自己的需求进行组合。而开发者自行进行三段式接入,则更像是在沙地上用沙子从头搭建城堡,并且很容易犯错。

AI 发展最需要解决的技术难点是什么?

贾世坤: 基座模型能力的提升,提高推理的效果,降低推理的性能消耗,从而为产品设计和用户交互带来更大的空间。

未来 AI 的算力部署方式:云端还是终端?

贾世坤: 短期来看,是云端和终端并行发展或协作的方式。长期来看,取决于技术发展方向。如果目标是实现人人可用的 AI 普及,那么可能更偏重终端。

MCP 协议:保护数据安全前提下,让终端用户享受到产品价值

Plutoless: MCP 协议本质上定义了一套协议,通过统一的方式定义与大模型的数据连接,从而允许用户仅在必要范围内暴露与大模型的交互,在保护自身数据安全的前提下,让终端用户享受到产品价值。对于非大模型厂商而言,几乎是必需的。

未来展望 & 社区连接

Plutoless: 我们将持续深耕 AI 实时互动领域,近期 TEN 将上线对 Home Assistant 的支持,实现对小米设备的使用,并推出易用的 Graph Designer 编排模块。欢迎在 GitHub 搜索「TEN Agent」或「TEN Framework」探索我们的开源项目。也可以来线上 Demo: https://agent.theten.ai/https://ten.rtcdeveloper.cn/ 体验智谱 GLM 实时 API + TEN 的 demo。

贾世坤: 我们将持续提升模型和推理能力,并开放更多 API 供开发者使用。访问 Bigmodel.cn 即可了解我们提供的 API 和模型工具。与 TEN 合作的 GLM-Realtime API 已在 TEN 和智谱开放平台上线。欢迎大家访问 BigModel,交流需求,共建端到端模型的开发能力。

我们也整理了近 2 万字的完整版文字回顾,点击 即可获取!关注「RTE 开发者社区」视频号,点击「直播回放」,也可以查看完整视频。

🧑‍💻课代表留言:希望早日见到智能音箱自己指使扫地机器人的那一天🙌

更多 Voice Agent 学习笔记:

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册