这次 voice agent 开发者分享会举行的同时,恰逢 Gemini 2.0 Flash 的发布, 免费试用让更多人体验到了多模态实时 AI 的魅力, 网上涌现了大量例如口语练习、屏幕操控以及「what’s in my hand」类型的视觉理解 demo。然而,这些在黑客松上可以实现的 demo 距离真正的工程化和商业化还有很长的路要走。
相比之下,voice agent 分享会上的许多开发者已经投身其中,踩了不少坑,也积累不少经验。
正在硅谷创业的 Vela 分享了她对 voice AI 创业在硅谷的发展。她认为,AI 既会 增强了人与人之间的沟通 ,也会增加人与自己的沟通。
AI 产品经理白宦成 则从产品角度探讨了实时 AI 在销售场景中的应用潜力,并展示了如何利用预生成和实时生成的知识库来赋能销售人员。虽然现在仍属于 Copilot 模式,但你可以在分享中看到 Voice Agent 代替人工坐席的雏形。
专注于 AI 儿童教育硬件的 Rizon 分享了他们在技术选型和实际应用中遇到的挑战。他们发现,在深入垂直场景后,现有模型的能力仅仅是探索的起点。例如,在儿童语音识别领域,目前还缺乏能够有效 处理儿童口音的成熟模型。
voice agent 搭建框架 TEN 的 Plutoless 分享了第一时间集成 Gemini Multimodal Live API 的一手经验,并介绍了 TEN 为简化 voice agent 开发流程 所做的更新和优化。
YC 最新的年度总结播客将 voice AI 列为年度趋势之一,认为其在横向(提供工具能力)和纵向(深耕垂直场景)都拥有巨大潜力。在智能客服和语言学习等场景中,voice AI 已初具规模。未来的市场格局也不会一家独大,而将呈现百花齐放的态势。
多模态和实时互动 AI 正加速从实验阶段迈向落地应用。希望本次分享能为你带来一些启发!
本次活动的微信群将持续开放 ,作为 voice agent 主题的长期讨论场域,欢迎通过文末方式加入我们的社区。
对 Voice AI 发展的认识:
Voice AI 的核心价值: Voice AI 不仅仅是技术的进步,更是交互方式的革新。它将人机交互提升到人人交互的水平,也将增强人与人之间的沟通。
市场现状: C 端产品百花齐放,从早期的 Clubhouse 等音频社交软件,到如今融合 AI 的 Airchat、Suno、Character.AI 的 voice call,以及 ChatGPT 的语音模型,都展现了 Voice AI 的巨大潜力。To B 领域,Voice AI 经历了从简单的 IVR 按键到自然语言控制的演变,市场规模持续扩大,尤其在硅谷,大量 Voice AI 初创公司获得融资,预示着市场的蓬勃发展。
技术栈演进: 当前 Voice AI 主要基于 Speech-to-Text、LLM 和 Text-to-Speech 的三段式级联方案。但这种方案存在一定的局限性,下一代技术正在积极探索新的方向:
1、GPT-4o 的 LAR 模型: 通过在输入层加入音频编码器,使模型能够直接处理音频信号,并结合上下文进行理解。
2、输出层 Audio-based Encoder: 提升语音合成的自然度和表现力,更接近真人对话。
3、Textless 模型: 跳过文本转换步骤,直接处理音频编码器 Token,进一步降低延迟,提升实时性。
4、Streaming 模式: 实现真正的实时双向语音交互,是 Voice AI 的终极目标。但目前准确率和高昂的训练成本仍是主要挑战。
产品案例分析:
Boardy: 这款 AI Networker 重新定义了人脉拓展的方式。它不仅仅是一个工具,更像是一个虚拟的社交助手,通过语音对话了解你的需求,并主动帮你联系潜在的人脉。
https://www.boardy.ai/
「与五年后的自己对话」(Vela 的作品): 这个产品探索了 AI 在个人成长领域的应用,通过与未来的「自己」对话,反思过去,展望未来。
对 NotebookLM「Join In」功能的解读: NotebookLM 的双人音频生成功能虽然引人注目,但它本质上是静态音频的生成,而非真正的实时交互。真正的实时交互需要 Agent 能够理解用户的意图,并动态地调整对话内容。
级联方案与 Streaming 方案的未来: 两种方案各有优劣,Streaming 方案的优势在于延迟低,但内容可控性较差,成本也较高。而级联方案在一些对内容质量要求较高的 ToB 场景中,例如医疗保健、保险等领域,仍然具有优势。通过 Streaming 技术的优化,三段式方案的延迟可以控制在 500ms 左右,使其在实时性方面也具备竞争力。最终,哪种方案会成为主流,取决于技术的进一步发展和具体的应用场景。
精准定位的应用场景: 该项目聚焦于一款企业级 IM 产品内部的销售赋能,特别是针对线上销售的实时外呼辅助和 AI 质检。
直击痛点的解决方案: 面对产品信息复杂、销售人员培训成本高、流动率高等问题,白宦成团队并没有选择完全用 AI 取代销售,而是开发了一套实时辅助系统,帮助销售人员提高效率和业绩。
技术方案的巧妙结合: 为了平衡实时性和计算成本,该系统采用了 pre-generate 和 on-time generate 两种方案。pre-generate 预先生成客户相关信息,减少实时计算压力;on-time generate 则利用本地部署的豆包模型,实时生成与当前对话相关的信息,保证低延迟和快速响应。
Copilot 理念: 强调 AI 的辅助角色,帮助销售人员更好地完成工作,而不是完全取代他们。这种理念更符合当前 AI 的发展水平,也更容易被用户接受。
持续改进的未来方向: 团队计划探索 Realtime API 的应用,并进一步优化 on-time generate 的 Streaming JSON 协议,提升用户体验,降低服务器带宽消耗。同时,他们也关注音频处理流程和基础设施建设,例如服务器带宽的优化,为未来的业务增长做好准备。
创新性的产品形态: Rizon 的团队正在开发一款结合便携式硬件、AR 技术和语音交互的儿童英语学习产品,旨在让孩子在更自然的真实环境中练习英语口语,告别传统的「哑巴英语」。
从三段式到双两段式的架构演进: 虽然目前产品采用的是 ASR + LLM + TTS 的三段式架构,但 Rizon 认为两段式 + 两段式架构([语音输入 - 结构化输出]-工作流-[结构化输入 - 语音输出])更适合儿童英语教育场景,因为它更利于结合上下文理解孩子的表达,并实现更自然的情感和语速控制。
亟待解决的关键挑战:
儿童语音识别: 儿童的发音特点与成人不同,通用语音识别模型的准确率较低。因此,Rizon 团队计划训练专门针对儿童的语音识别模型。
情感和语速控制: 与儿童交互需要更自然、更具亲和力的语音表达,以及更合适的语速。这方面,传统的 TTS 方案难以满足需求,需要更先进的技术。
环境噪音处理: 由于产品应用于移动场景,如何有效地处理室外噪音是一个重要挑战。
务实的技术选型:
硬件平台: 选择安卓系统,主要考虑其功能丰富、扩展性强,以及开发成本相对较低等因素。
通信协议: 采用 RTC 协议,保障实时性和稳定性。但 RTC 在 Serverless 部署方面存在挑战,团队正在积极探索解决方案。
TEN Framework 的核心目标:
通过模块化的设计,简化 Agent 的开发流程,让开发者能够更轻松地搭建、调试和部署多模态 Agent。
Gemini 集成体验的全面评估:
优势: 免费使用(对开发者非常友好),功能强大,原生支持 Vision,内置 Google Search 和 Code Executioner,省去了开发者集成第三方工具的麻烦。
不足: 由于 Gemini 仍处于 Alpha 阶段,存在一些问题,例如文档不完善,服务稳定性有待提高,语音识别对口音的适应性不足,Function Call 功能有待完善,且仅支持 Server VAD。
TEN Framework 的重要更新:
LLM 和 TTS 抽象: 通过对语言模型和语音合成模块进行抽象,规范了插件的开发流程,方便开发者快速集成各种模型和工具,并根据实际需求进行替换。
支持更复杂的大脑编排: 新版本支持 Coze、Dify(WIP)等工具的集成,使开发者能够构建更复杂、更强大的 Agent。
提升 Playground 体验: 提供可视化界面,方便开发者调试和配置 Agent,降低开发门槛。
RTC 与 WebSocket 的深入对比: Plutoless 详细分析了两种协议的优劣,指出 RTC 更适合实时音视频交互场景,因为它具有更好的网络适应性和 QoS 控制能力,能够有效应对网络波动和延迟。而 WebSocket 更轻量,适用于网络环境稳定的场景,例如在本地或局域网环境下的应用。
赵艺军:Tempo-Pulse 触觉音乐播放器
实时 AI 触觉音乐播放器,将音乐转换为触觉反馈,让听障人士也能感受音乐的魅力。支持 Apple Music 曲库和本地音乐导入,并提供触觉强度和风格的自定义设置。
https://www.rtecommunity.dev/t/t_gKh4nm8qJJW3BR
YuZou 邹宇:抱抱小白 mibai
多人互动桌面机器人,结合语音交互、情绪识别和远程控制等功能,打造一个具有个性化和社交属性的桌面伴侣。硬件形态小巧,并支持无线充电。
https://mp.weixin.qq.com/s/4azfpun7XH4vf6kR3uVsHg
李亚伟:硅基流动大模型推理云服务
专注于 AI 模型推理加速和成本优化的技术平台,具有高性能、低成本的特点,并提供丰富的云服务支持。目前提供了 Fish Speech、SenseVoiceSmall 等开源语音模型的接口。
张锑:语音控制电脑 Demo :
通过语音指令控制电脑,实现打开软件、搜索信息、播放视频等功能。探索 AI 与软件的更自然、更高效的交互方式。
https://m.okjike.com/originalPosts/67420e81f22c7c56e4f834b9
Rex 陈正翔:AI 轮椅
专为老年人设计的 AI 轮椅,支持自然语言指令控制,并可以操作手机、智能家居等设备。例如,老年人可以通过语音指令让轮椅带自己去厕所,或者在摔倒时自动拨打电话给家人。
具备端侧视觉多模态和 Nav2 导航的电动轮椅
Agenthttps://a0orhs0srr.feishu.cn/docx/Fzxxd0PnIo2gu4xcyOdc87dunvc
常高伟:AgentNetworkProtocol(ANP)
旨在构建智能体互联网时代的 HTTP 协议,解决智能体之间的连接和信息共享问题,为数十亿智能体构建一个开放、安全、高效的协作网络,让 AI 能够更便捷地访问和利用互联网上的信息。
https://github.com/chgaowei/AgentNetworkProtocol/blob/main/README.cn.md
Johnson:能够实时控制对话方向的智能访谈 Agent
一款支持多人语音交互的智能访谈工具,能够实时控制对话方向,避免跑题,并根据预设的访谈提纲引导对话进行。
多 Agent 设计,1 个 Agent 是制片人,1 个是访谈记者, 制片人 Agent 在异步的后台实时监听 Voice2Voice 的对话,并给访谈记者提供一些指导建议。
https://open.minitool.fun:17080/Openconsole
英语教育 Agent(yin2):
探索 AI 在英语教育领域的应用,例如口语练习、发音纠正等。(感谢 yin2 对本次活动的现场夸夸!)
黄巍 Tom:基于自由画布的 AI Native 内容创作工具 Refly
基于自由画布的 AI Native 内容创作工具,由多线程对话、知识库集成、上下文记忆和智能搜索驱动,旨在帮助用户将创意转化为优质内容。
Refly 由多线程对话、知识库集成、上下文记忆和智能搜索驱动,目前已经内测上线。
本次活动也收到了参与者的一致好评,谢谢大家的参与,我们下一次 RTE Meetup 再见!!
Real-Time&Real Connection,RTE Meetup 是 RTE 开发者社区发起的小型开发者聚会,邀请开发者分享技术和产品的同时,也重视每个与会者的深度参与和交流体验。
RTE=Real-Time Engagement,即「实时互动」。
欢迎联系我们申请成为 RTE Meetup 组织者,用你感兴趣的话题聚集同类人,分享新技术、新理念和新场景,一同探索实时互动新可能。有意者请加微信 Creators2022,备注身份和来意。
更多 Voice Agent 学习笔记:
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨 Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+ 客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服
语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场
下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》