主题围绕 「Voice Agent+ 硬件」 ,2025 年第一期 RTE Meetup 成功落地硬件之都深圳。

来自讯飞、乐鑫、闪极科技、TEN、MiniMax、声网、小智 AI 聊天机器人等项目的开发者都到场分享或交流。主题领域覆盖 IoT、AI 眼镜、RTC、voice agent 构建框架、ESP32 等话题。

声网技术专家吴方方 以宏观视角剖析了 AIoT 行业从「听到」到「听懂」的演进历程,并着重强调了大模型对 AIoT 的变革以及 RTC 技术在解决延迟挑战中的关键作用。

TEN Framework 核心开发者 Jay 从实践出发,分享了如何运用 TEN 框架和 ESP32 打造低延迟的卓越语音 AI 硬件体验,TEN+EPS32 的方案也即将开源。

科大讯飞 AI 交互高级项目经理贺思源 阐述了讯飞在多模态语音增强、超拟人语音合成等前沿 AI 能力上的突破,以及这些技术在教育、医疗等领域的创新应用。

圆桌环节,包括 闪极科技 CTO 周万程 在内的嘉宾们围绕 大模型降本增效、端侧计算能力提升 以及 网络传输优化 等关键技术展开探讨,并讨论了 Always on 的环境式智能体 在 AI 硬件的发展。

我们整理了本次活动的核心分享,期待对你有所启发!也欢迎加入我们的「voice agent+ 硬件」微信群。

本次活动的微信群将持续开放, 作为「voice agent+ 硬件」主题的长期讨论场域,欢迎扫码申请加入我们的微信群。

注:扫码后,建议在浏览器中打开页面注册报名(微信内置浏览器不支持 Google 登录)如遇问题,可加小助手微信(Creators2022)协助报名❤️

Web 端也可直接访问网页报名:
https://www.rtecommunity.dev/t/t_HAaehj9mvyaF8n

吴方方:让万物「听说」,AI 对话式智能硬件方案和发展洞察

AIoT 行业演进:从「听到」到「听懂」

2017 年,AI 技术突破推动了语音识别(ASR)、语音合成(TTS)和自然语言理解(NLU)的发展,促成 AIoT 概念的兴起。2020 年,AIoT 快速发展,自然语言人机交互成为现实。ASR 准确率超 93%,TTS 自然度和情感表达显著提升, 智能音箱、手机助手、语音输入法等产品涌现。

大模型对 AIoT 的影响

大模型提升了 AI 助手理解用户意图的能力,使对话更自然,并具备多模态感知能力。此外,AI 的自学习能力使其能不断优化服务,满足个性化需求。具体表现为:

AIoT 产品形态变革

挑战与应对

大模型部署成本高,对延迟敏感,依赖端云协同,且多模态数据传输压力大。为此,引入 RTC 技术势在必行。RTC 技术具有低延迟和灵活传输能力,可支持多模态数据传输,并将计算压力转移至云端,提升用户体验。

声网的 AI Agent x IoT 解决方案支持低功耗芯片快速接入大模型,实现低延时互动。开发者只需接入 RTC,其他计算由云端完成,降低开发成本。

Jay:TEN x ESP32 玩转 Voice AI,创造低延迟的 AI 硬件体验

IoT 设备接入大模型的挑战与痛点

TEN 框架的解决方案

基于 TEN 框架构建的对话 AI 引擎,TEN Agent 为开发者提供快速构建实时对话式 AI 智能体的工具。

插件式设计: 所有功能模块(如 RTC, ASR, LLM, TTS)均以插件形式存在,方便灵活编排组合。

内置 RTC: 具备低延迟、降噪等特性,简化了复杂音视频场景的处理。

开箱即用: TEN Agent 内置 RTC + STT + LLM + TTS 的完整流程,提供预设配置方便用户快速体验。

支持级联和语音到语音(V2V)两种模式: TEN 框架都能轻松实现,开发者可根据场景自由选择。

可与 Dify 和 Coze 集成: 如果已经在 Dify 或 Coze 上搭建了 Agent 的大脑,可以通过简单配置参数,让其在 TEN 上实现语音交互。

TEN + ESP32 方案

基于 ESP32 的对话助手: 结合 TEN Agent,实现低成本的语音交互设备。

架构: ESP32 通过 Agora 的 RTC SDK 连接到云端的 TEN Agent,完成语音/视频/文本传输,并在云端完成 ASR/LLM/TTS 处理。

关键实现: 包括集成 RTC SDK 和 TEN Agent 的控制 API,采集音频并传输,接收回复并播放。

Demo 展示: 现场演示了基于 iFLY(ASR)、阿里通义千问(LLM)和 MiniMax(TTS)模型的语音交互,延迟约为 1.5-2 秒,打断自然。

开源计划: TEN + ESP32 方案将在未来 1-2 周内开源。

贺思源:新能力,新可能——AI 智能硬件创新场景探索

讯飞新能力:

讯飞新场景应用:

AI 能力与硬件结合的思考:

未来产品畅想:

圆桌讨论:把 GenAI 装进物理世界,一共分几步?

2025 年的关键技术突破

参与讨论的嘉宾们认为,在未来 1~2 年内,最重要的技术突破可能主要集中在以下方面:

Always on 的 Ambient Agent 的未来

对于 「Ambient Agent」(环境式智能体) 这一概念,嘉宾们认为这代表了 AI 硬件的重要发展方向。这种智能体能够全天候陪伴用户,但不会过度打扰,而是在适当时机主动交互。

贺思源打了个比方:「就像开车时的导航,它会在关键时刻提醒你 『前面 200 米有红灯』,但平时并不会喋喋不休。」同时,贺思源也表示,除了导航等传统场景外,大模型在 视觉分析等复杂场景 中将发挥更大价值。

周万程则指出了技术挑战:「Always on 是个好概念,但要考虑功耗。 在重要场景高帧率记录,不重要场景低帧率记录,这需要很好的场景感知能力。」

Ligntning Demo

心语心声:AI 驱动的智能陪伴玩具

具有特色的智能陪伴玩具,该产品的独特之处在于具备审描功能,特别适用于老人和儿童群体。通过分析用户的语音特征,系统可以对儿童的心智发育、情绪状况,以及老人的健康状况做出初步判断。目前由于数据量较小,还不能称为医疗诊疗,团队正在努力扩展数据库。

项目目前面临两个主要挑战:

1.电池续航问题:团队最初计划做 always on 项目,但在小型化过程中遇到了能量供给的困难

2.语音唤醒问题:正在探索通过分析说话者与老人、儿童交谈时的声音模式差异来作为唤醒的触发点

儿童 AI 体感互动&口语陪练

一位在基于儿童 AI 创业的创业者认为纯粹的儿童语音玩具可能是伪需求,市场上已有大量陪伴玩具,不一定需要实时的大模型陪伴。

目前她正在开展两个创新项目:

1.儿童 AI 体感项目:开发能够捕捉儿童动作的硬件设备,配合电视游戏实现互动陪伴;

2.儿童口语陪练项目:与科大讯飞合作,针对儿童口语训练的特定需求和具体痛点开发解决方案。

小智 AI 聊天机器人

小智 AI 聊天机器人的产品负责人现场 demo 了基于乐鑫 ESP32 方案的对话硬件。乐鑫工程师现场也参与了答疑和交流。

活动主办:RTE 开发者社区

场地支持方:亚马逊云科技 AWS

社区伙伴支持:有新 Newin、亚马逊云科技 User Group、LitGate、TEN Framework、讯飞开放平台、 ErroRight

本次活动的微信群将持续开放, 作为「voice agent+ 硬件」主题的长期讨论场域,欢迎扫码申请加入我们的微信群。

注:扫码后,建议在浏览器中打开页面注册报名(微信内置浏览器不支持 Google 登录)如遇问题,可加小助手微信(Creators2022)协助报名❤️

Web 端也可直接访问网页报名:
https://www.rtecommunity.dev/t/t_HAaehj9mvyaF8n

关于 RTE Meetup

https://www.rtecommunity.dev/

Real-Time&Real Connection,RTE Meetup 是 RTE 开发者社区发起的小型开发者聚会,邀请开发者分享技术和产品的同时,也重视每个与会者的深度参与和交流体验。

RTE=Real-Time Engagement,即「实时互动」。

成为 RTE Meetup 组织者

欢迎联系我们申请成为 RTE Meetup 组织者,用你感兴趣的话题聚集同类人,分享新技术、新理念和新场景,一同探索实时互动新可能。有意者请加微信 Creators2022,备注身份和来意。



↙↙↙阅读原文可查看相关链接,并与作者交流