AI测试 Gemini 2.0 来了，这些 Voice Agent 开发者早已开始探索……

RTE开发者社区 · 2024年12月17日 · 4414 次阅读

这次 voice agent 开发者分享会举行的同时，恰逢 Gemini 2.0 Flash 的发布，免费试用让更多人体验到了多模态实时 AI 的魅力，网上涌现了大量例如口语练习、屏幕操控以及「what’s in my hand」类型的视觉理解 demo。然而，这些在黑客松上可以实现的 demo 距离真正的工程化和商业化还有很长的路要走。

相比之下，voice agent 分享会上的许多开发者已经投身其中，踩了不少坑，也积累不少经验。

正在硅谷创业的 Vela 分享了她对 voice AI 创业在硅谷的发展。她认为，AI 既会 增强了人与人之间的沟通 ，也会增加人与自己的沟通。

AI 产品经理白宦成 则从产品角度探讨了实时 AI 在销售场景中的应用潜力，并展示了如何利用预生成和实时生成的知识库来赋能销售人员。虽然现在仍属于 Copilot 模式，但你可以在分享中看到 Voice Agent 代替人工坐席的雏形。

专注于 AI 儿童教育硬件的 Rizon 分享了他们在技术选型和实际应用中遇到的挑战。他们发现，在深入垂直场景后，现有模型的能力仅仅是探索的起点。例如，在儿童语音识别领域，目前还缺乏能够有效 处理儿童口音的成熟模型。

voice agent 搭建框架 TEN 的 Plutoless 分享了第一时间集成 Gemini Multimodal Live API 的一手经验，并介绍了 TEN 为简化 voice agent 开发流程 所做的更新和优化。

YC 最新的年度总结播客将 voice AI 列为年度趋势之一，认为其在横向（提供工具能力）和纵向（深耕垂直场景）都拥有巨大潜力。在智能客服和语言学习等场景中，voice AI 已初具规模。未来的市场格局也不会一家独大，而将呈现百花齐放的态势。

多模态和实时互动 AI 正加速从实验阶段迈向落地应用。希望本次分享能为你带来一些启发！

本次活动的微信群将持续开放 ，作为 voice agent 主题的长期讨论场域，欢迎通过文末方式加入我们的社区。

Vela：Voice AI 全景概述与产品案例分享

对 Voice AI 发展的认识：

Voice AI 的核心价值： Voice AI 不仅仅是技术的进步，更是交互方式的革新。它将人机交互提升到人人交互的水平，也将增强人与人之间的沟通。
市场现状： C 端产品百花齐放，从早期的 Clubhouse 等音频社交软件，到如今融合 AI 的 Airchat、Suno、Character.AI 的 voice call，以及 ChatGPT 的语音模型，都展现了 Voice AI 的巨大潜力。To B 领域，Voice AI 经历了从简单的 IVR 按键到自然语言控制的演变，市场规模持续扩大，尤其在硅谷，大量 Voice AI 初创公司获得融资，预示着市场的蓬勃发展。
技术栈演进： 当前 Voice AI 主要基于 Speech-to-Text、LLM 和 Text-to-Speech 的三段式级联方案。但这种方案存在一定的局限性，下一代技术正在积极探索新的方向：

1、GPT-4o 的 LAR 模型： 通过在输入层加入音频编码器，使模型能够直接处理音频信号，并结合上下文进行理解。

2、输出层 Audio-based Encoder： 提升语音合成的自然度和表现力，更接近真人对话。

3、Textless 模型： 跳过文本转换步骤，直接处理音频编码器 Token，进一步降低延迟，提升实时性。

4、Streaming 模式： 实现真正的实时双向语音交互，是 Voice AI 的终极目标。但目前准确率和高昂的训练成本仍是主要挑战。

产品案例分析：

Boardy： 这款 AI Networker 重新定义了人脉拓展的方式。它不仅仅是一个工具，更像是一个虚拟的社交助手，通过语音对话了解你的需求，并主动帮你联系潜在的人脉。
https://www.boardy.ai/

「与五年后的自己对话」（Vela 的作品）：这个产品探索了 AI 在个人成长领域的应用，通过与未来的「自己」对话，反思过去，展望未来。

对 NotebookLM「Join In」功能的解读： NotebookLM 的双人音频生成功能虽然引人注目，但它本质上是静态音频的生成，而非真正的实时交互。真正的实时交互需要 Agent 能够理解用户的意图，并动态地调整对话内容。

级联方案与 Streaming 方案的未来： 两种方案各有优劣，Streaming 方案的优势在于延迟低，但内容可控性较差，成本也较高。而级联方案在一些对内容质量要求较高的 ToB 场景中，例如医疗保健、保险等领域，仍然具有优势。通过 Streaming 技术的优化，三段式方案的延迟可以控制在 500ms 左右，使其在实时性方面也具备竞争力。最终，哪种方案会成为主流，取决于技术的进一步发展和具体的应用场景。

白宦成：销售场景下的实时 AI 辅助实践

精准定位的应用场景： 该项目聚焦于一款企业级 IM 产品内部的销售赋能，特别是针对线上销售的实时外呼辅助和 AI 质检。

直击痛点的解决方案： 面对产品信息复杂、销售人员培训成本高、流动率高等问题，白宦成团队并没有选择完全用 AI 取代销售，而是开发了一套实时辅助系统，帮助销售人员提高效率和业绩。

技术方案的巧妙结合： 为了平衡实时性和计算成本，该系统采用了 pre-generate 和 on-time generate 两种方案。pre-generate 预先生成客户相关信息，减少实时计算压力；on-time generate 则利用本地部署的豆包模型，实时生成与当前对话相关的信息，保证低延迟和快速响应。

Copilot 理念： 强调 AI 的辅助角色，帮助销售人员更好地完成工作，而不是完全取代他们。这种理念更符合当前 AI 的发展水平，也更容易被用户接受。

持续改进的未来方向： 团队计划探索 Realtime API 的应用，并进一步优化 on-time generate 的 Streaming JSON 协议，提升用户体验，降低服务器带宽消耗。同时，他们也关注音频处理流程和基础设施建设，例如服务器带宽的优化，为未来的业务增长做好准备。

Rizon：儿童英语教育硬件产品开发中的挑战与思考

创新性的产品形态： Rizon 的团队正在开发一款结合便携式硬件、AR 技术和语音交互的儿童英语学习产品，旨在让孩子在更自然的真实环境中练习英语口语，告别传统的「哑巴英语」。

从三段式到双两段式的架构演进： 虽然目前产品采用的是 ASR + LLM + TTS 的三段式架构，但 Rizon 认为两段式 + 两段式架构（[语音输入 - 结构化输出]-工作流-[结构化输入 - 语音输出]）更适合儿童英语教育场景，因为它更利于结合上下文理解孩子的表达，并实现更自然的情感和语速控制。

亟待解决的关键挑战：

儿童语音识别： 儿童的发音特点与成人不同，通用语音识别模型的准确率较低。因此，Rizon 团队计划训练专门针对儿童的语音识别模型。
情感和语速控制： 与儿童交互需要更自然、更具亲和力的语音表达，以及更合适的语速。这方面，传统的 TTS 方案难以满足需求，需要更先进的技术。
环境噪音处理： 由于产品应用于移动场景，如何有效地处理室外噪音是一个重要挑战。

务实的技术选型：

硬件平台： 选择安卓系统，主要考虑其功能丰富、扩展性强，以及开发成本相对较低等因素。
通信协议： 采用 RTC 协议，保障实时性和稳定性。但 RTC 在 Serverless 部署方面存在挑战，团队正在积极探索解决方案。

Plutoless：TEN Framework 更新与 Gemini 集成体验

TEN Framework 的核心目标：

通过模块化的设计，简化 Agent 的开发流程，让开发者能够更轻松地搭建、调试和部署多模态 Agent。

Gemini 集成体验的全面评估：

优势：免费使用（对开发者非常友好），功能强大，原生支持 Vision，内置 Google Search 和 Code Executioner，省去了开发者集成第三方工具的麻烦。

不足：由于 Gemini 仍处于 Alpha 阶段，存在一些问题，例如文档不完善，服务稳定性有待提高，语音识别对口音的适应性不足，Function Call 功能有待完善，且仅支持 Server VAD。

TEN Framework 的重要更新：

LLM 和 TTS 抽象： 通过对语言模型和语音合成模块进行抽象，规范了插件的开发流程，方便开发者快速集成各种模型和工具，并根据实际需求进行替换。

支持更复杂的大脑编排： 新版本支持 Coze、Dify（WIP）等工具的集成，使开发者能够构建更复杂、更强大的 Agent。

提升 Playground 体验： 提供可视化界面，方便开发者调试和配置 Agent，降低开发门槛。

RTC 与 WebSocket 的深入对比： Plutoless 详细分析了两种协议的优劣，指出 RTC 更适合实时音视频交互场景，因为它具有更好的网络适应性和 QoS 控制能力，能够有效应对网络波动和延迟。而 WebSocket 更轻量，适用于网络环境稳定的场景，例如在本地或局域网环境下的应用。