大家好~这是 Voice Agent 学习笔记系列的第二十二篇。我是课代表十三🧑‍💻。

2 月 26 日,Amazon 发布了新一代 Alexa+,为全球 6 亿台智能设备终端瞬间赋予了新一代 AI 能力。 现场演示令人惊艳:Alexa+ 不仅能根据语音指令无缝切换播放设备,实现音乐和视频在不同房间的流转,还能与安防摄像头联动,自主调取与用户指令相关的视频片段。

更令人印象深刻的是,它能够完成各种复杂指令,如根据家庭成员的偏好选择餐厅并预订,叫出租车去机场接客人,并实时同步出租车信息等等。

将 AI 融入端侧的远不止亚马逊。2025 年,三星、苹果等科技巨头预计将 GenAI 全面融入智能手机,而小米等智能音箱等家用设备、以及各家汽车智能座舱也将全面拥抱 GenAI——生成式 AI 正以前所未有的速度走进千家万户,融入日常生活的方方面面。

那么,GenAI 目前在端侧的技术发展到了什么程度? 面对日益普及的端侧 AI,潜在的安全隐患又该如何规避?未来的交互界面是 GUI 的天下,还是 LUI 的时代?AI 将如何重塑我们的智能家居体验?在端侧智能化的浪潮中,开发者们又将迎来哪些全新的机遇,又将面临哪些挑战?

为了解答这些疑问,RTE 开发者社区特别邀请到了来自智谱、TEN 和声网的多位实时多模态 AI 专家共同探讨端侧 AI 浪潮下的挑战和机遇。以下是直播的一些精彩观点的总结,希望能给大家提供一些新的思考。

同时,我们也整理了近 2 万字的完整版文字回顾,点击文末的「阅读全文」即可获取!关注「RTE 开发者社区」视频号,点击「直播回放」,也可以查看完整视频。

期待与你在 RTE 开发者社区交流更多 Voice Agent 相关话题!enjoy~

亚马逊 Alexa+ 新品亮点:

贾世坤:

Plutoless:

端侧 AI 的更多应用场景:除了智能音箱,AI 还能做什么?

贾世坤:

实时语音 AI 的进展与挑战

Plutoless:

规避潜在风险,设计「有益幻觉」

贾世坤:

Plutoless:

GUI vs. LUI:人机交互的未来趋势

Plutoless:

端侧能力:开发者能做什么?硬件限制下的技术选择

贾世坤:

Plutoless:

AIoT:智能家居的变革与标准化

贾世坤:

Plutoless:

多设备协同:未来的家庭物联网如何运转?

Plutoless:

Agent Store:AI 助手的分发平台,未来应用商店的新形态

贾世坤:

Plutoless:

如何将推理模型与端侧实时交互场景相结合?

贾世坤:

如何填补模型思考带来的空白期?

如何看待新型端侧设备以及未来 AI 玩具的发展?

Plutoless:

观众 Q&A 环节

如何为端到端的 Voice Agent 增加不同的智能化能力?

贾世坤:

自行实现三段式接入 vs TEN 框架,开发体验或其他方面会有哪些差异?

Plutoless:

AI 发展最需要解决的技术难点是什么?

贾世坤: 基座模型能力的提升,提高推理的效果,降低推理的性能消耗,从而为产品设计和用户交互带来更大的空间。

未来 AI 的算力部署方式:云端还是终端?

贾世坤: 短期来看,是云端和终端并行发展或协作的方式。长期来看,取决于技术发展方向。如果目标是实现人人可用的 AI 普及,那么可能更偏重终端。

MCP 协议:保护数据安全前提下,让终端用户享受到产品价值

Plutoless: MCP 协议本质上定义了一套协议,通过统一的方式定义与大模型的数据连接,从而允许用户仅在必要范围内暴露与大模型的交互,在保护自身数据安全的前提下,让终端用户享受到产品价值。对于非大模型厂商而言,几乎是必需的。

未来展望 & 社区连接

Plutoless: 我们将持续深耕 AI 实时互动领域,近期 TEN 将上线对 Home Assistant 的支持,实现对小米设备的使用,并推出易用的 Graph Designer 编排模块。欢迎在 GitHub 搜索「TEN Agent」或「TEN Framework」探索我们的开源项目。也可以来线上 Demo: https://agent.theten.ai/https://ten.rtcdeveloper.cn/ 体验智谱 GLM 实时 API + TEN 的 demo。

贾世坤: 我们将持续提升模型和推理能力,并开放更多 API 供开发者使用。访问 Bigmodel.cn 即可了解我们提供的 API 和模型工具。与 TEN 合作的 GLM-Realtime API 已在 TEN 和智谱开放平台上线。欢迎大家访问 BigModel,交流需求,共建端到端模型的开发能力。

我们也整理了近 2 万字的完整版文字回顾,点击 即可获取!关注「RTE 开发者社区」视频号,点击「直播回放」,也可以查看完整视频。

🧑‍💻课代表留言:希望早日见到智能音箱自己指使扫地机器人的那一天🙌

更多 Voice Agent 学习笔记:

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用


↙↙↙阅读原文可查看相关链接,并与作者交流