大家好~这是 Voice Agent 学习笔记系列的第二十二篇。我是课代表十三🧑💻。
2 月 26 日,Amazon 发布了新一代 Alexa+,为全球 6 亿台智能设备终端瞬间赋予了新一代 AI 能力。 现场演示令人惊艳:Alexa+ 不仅能根据语音指令无缝切换播放设备,实现音乐和视频在不同房间的流转,还能与安防摄像头联动,自主调取与用户指令相关的视频片段。
更令人印象深刻的是,它能够完成各种复杂指令,如根据家庭成员的偏好选择餐厅并预订,叫出租车去机场接客人,并实时同步出租车信息等等。
将 AI 融入端侧的远不止亚马逊。2025 年,三星、苹果等科技巨头预计将 GenAI 全面融入智能手机,而小米等智能音箱等家用设备、以及各家汽车智能座舱也将全面拥抱 GenAI——生成式 AI 正以前所未有的速度走进千家万户,融入日常生活的方方面面。
那么,GenAI 目前在端侧的技术发展到了什么程度? 面对日益普及的端侧 AI,潜在的安全隐患又该如何规避?未来的交互界面是 GUI 的天下,还是 LUI 的时代?AI 将如何重塑我们的智能家居体验?在端侧智能化的浪潮中,开发者们又将迎来哪些全新的机遇,又将面临哪些挑战?
为了解答这些疑问,RTE 开发者社区特别邀请到了来自智谱、TEN 和声网的多位实时多模态 AI 专家共同探讨端侧 AI 浪潮下的挑战和机遇。以下是直播的一些精彩观点的总结,希望能给大家提供一些新的思考。
同时,我们也整理了近 2 万字的完整版文字回顾,点击文末的「阅读全文」即可获取!关注「RTE 开发者社区」视频号,点击「直播回放」,也可以查看完整视频。
期待与你在 RTE 开发者社区交流更多 Voice Agent 相关话题!enjoy~
贾世坤:
Alexa 新品的功能特性有两大亮点:
未来期待: Agent 和 Agent 之间的协作(譬如最近的 GibberLink),创造有趣的应用场景。
Plutoless:
Alexa 新品仍定位为助手,帮助用户完成各项任务。
未来方向: AI Agent 集成到各种设备中,通过语音直接控制家居设备,实现设备间的隐性连接与协作。
担忧: 家居设备间互联可能让人感到不安,语言适配仍面临挑战。
贾世坤:
车载应用: 是目前最被看好的应用场景,尤其是在座舱控制和车外录制设备管理方面。
Agent 间协作: 通过 Function Call 等技术,集成在中控 IoT 等终端设备上的 AI Agent 实现互动。
Plutoless:
实时语音 AI 主要有两种实现方式:
实时语音技术面临的挑战:网络、音频处理与幻觉
幻觉问题: 音频 LLM 驱动的 AI Agent 应用于实际生产环境时,幻觉会严重损害用户体验。
贾世坤:
技术层面: 有效排除有害信息,例如使用 Self-Check 方式(前端生成,后端自检测)。
产品层面: 授权机制(权限隔离和角色权限隔离),交互层面提供足够的空间纠正错误,针对儿童提供便捷的管理方式。
设计「有益幻觉」: 例如故事创作、图像创新设计等。
Plutoless:
Plutoless:
LUI(语音用户界面)和 GUI(图形用户界面)不是简单的替代关系,而是一种协作关系。
LUI 优势: 更自然、高效的交互方式,适用于语音订票等简单指令场景。
GUI 优势: 更直观、精准的控制,适用于需要确认多个选项的复杂场景。
展望: LUI 配合多模态交互方式(例如眼球追踪),或许能完全取代 GUI,但这还有很长的路要走。开发者需要重新思考 UI 设计,将语音、视觉、触觉等多种模态融合在一起。
贾世坤:
商业化部分: 端侧的多模态模型(性能快,可端侧部署),语音合成(人机交互感受),端侧语言模型(10B 以下规模)。
关注方向: 端侧的集成工程能力(整合设备算力、语音识别、大型模型、语音合成),端云结合的方案(通过模型训练或强化学习进行优化)。
Plutoless:
策略: 简单任务在端侧完成,复杂、计算量大的任务通过云端 AI 完成。纯粹入门或体验使用云端,想在端侧运行特定功能时模型尺寸受限,适合处理相对固定和简单的任务。
衡量指标: 延迟、发热量、耗电量。
贾世坤:
Plutoless:
Plutoless:
现状: Alexa Plus 已经展现出了一定的协同能力,设备能够共享上下文信息。
未来: 发展到 Multi-agents 模式,不同的家电具备各自专业的 AI 能力,互相协作解决复杂问题。
贾世坤:
愿景: 长期看,会出现类似「AI 员工招聘社区」,而非 Agent Store 的形式。
平台价值: 只要有平台,大家一定会在平台上进行价值互换,实现需求与解决方案的匹配。
Plutoless:
现状: Alexa 和 Home Assistant 是初步的例子,未来 Home Assistant 很可能出现大量类似 GPTs 的基于平台开发的各种人工智能体。
趋势: 将来可能会成为下一个类似手机 APP Store 的分发入口,使得每一个家居设备都变成任意你想要的 AI Agent。
贾世坤:
策略: 挖掘更多可控的新场景,短期内将模型部署在云端,对于复杂操作的任务,借助云端模型进行推理或执行。
交互: 采用白盒化或后台推理,通过与硬件设备结合的方式进行交互,尽可能地将推理过程后置。
Plutoless:
看好类型: 眼镜和陪伴类玩具(例如主要面向儿童的毛绒玩具)。
眼镜: 靠近人的大脑和感官系统,能够较为真实地还原人所见、所听以及思考方式。
玩偶: 提供类人的智能,使用户真正感受到它不是一个 AI Bot,而是一个能够互动、提供帮助、提供情绪价值,甚至能够与孩子聊天的伙伴。
AI 玩具的「iPhone 时刻」: 更人性化的交互方式,能否带来足够的沉浸感,能否清晰地听到我的声音、能否真正理解我的意图,能否让我产生持续挖掘、沟通和交谈的欲望,真正让我忘却它是一个 AI,并愿意持续与之交互。
贾世坤:
采用基于大模型技术,利用工具作为中间的事件传输或模型推理的组成部分。
通过 Function Call 的工具调用获取故事内容或大纲,然后逐步讲述。
Plutoless:
自行实现: 延迟高、性能差、效果不佳,缺乏对音视频数据处理的深入理解。
TEN 框架: 解决音视频处理逻辑、网络和音频处理方面的问题,模块可插拔、可复用,线程模型分离音视频数据传输。
TEN 框架的优势: 使用 TEN Framework 就像是用乐高搭积木一样,我们提供标准化的积木组件,开发者只需按照自己的需求进行组合。而开发者自行进行三段式接入,则更像是在沙地上用沙子从头搭建城堡,并且很容易犯错。
贾世坤: 基座模型能力的提升,提高推理的效果,降低推理的性能消耗,从而为产品设计和用户交互带来更大的空间。
贾世坤: 短期来看,是云端和终端并行发展或协作的方式。长期来看,取决于技术发展方向。如果目标是实现人人可用的 AI 普及,那么可能更偏重终端。
Plutoless: MCP 协议本质上定义了一套协议,通过统一的方式定义与大模型的数据连接,从而允许用户仅在必要范围内暴露与大模型的交互,在保护自身数据安全的前提下,让终端用户享受到产品价值。对于非大模型厂商而言,几乎是必需的。
Plutoless: 我们将持续深耕 AI 实时互动领域,近期 TEN 将上线对 Home Assistant 的支持,实现对小米设备的使用,并推出易用的 Graph Designer 编排模块。欢迎在 GitHub 搜索「TEN Agent」或「TEN Framework」探索我们的开源项目。也可以来线上 Demo: https://agent.theten.ai/ 和 https://ten.rtcdeveloper.cn/ 体验智谱 GLM 实时 API + TEN 的 demo。
贾世坤: 我们将持续提升模型和推理能力,并开放更多 API 供开发者使用。访问 Bigmodel.cn 即可了解我们提供的 API 和模型工具。与 TEN 合作的 GLM-Realtime API 已在 TEN 和智谱开放平台上线。欢迎大家访问 BigModel,交流需求,共建端到端模型的开发能力。
我们也整理了近 2 万字的完整版文字回顾,点击 即可获取!关注「RTE 开发者社区」视频号,点击「直播回放」,也可以查看完整视频。
🧑💻课代表留言:希望早日见到智能音箱自己指使扫地机器人的那一天🙌
更多 Voice Agent 学习笔记:
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势