12 月 13 日,语音 AI 初创公司 Cartesia 宣布完成了新一轮 2700 万美元的融资,由知名风投机构 Index Ventures 领投。

Cartesia 由 Karan Goel 和 Albert Gu 联合创立,专注于开发基于状态空间模型(SSM)的创新架构,该架构以其卓越的计算效率和实时处理能力而著称。Cartesia 的核心产品 Sonic 正是基于 SSM 技术打造的高速文本转语音引擎。

Cartesia 计划在其 Sonic 的基础上制定了长期路线图,其中包括开发能够摄取和处理不同输入(例如文本、音频、视频、图像和时间序列数据)的多模态 AI 模型。

最近,Cartesia 结合与数百位伙伴的合作经验,分享了这份 2024 语音 AI 年度总结,并展望了 2025 年的发展。 包括中断处理、数字人肢体语言同步和端侧本地语音处理等趋势。

报告对 2025 年语音技术的展望的核心要点:

语音到语音(S2S)模型成为主流:

语音助手处理更复杂的多步骤任务:

- 更深入地融入工作流程: 语音助手将在各个领域承担更多任务,例如预订、预约和支付等。

- 利用检索增强生成(RAG): 语音助手将具备端到端的处理能力,例如直接检索信息、应用政策并完成任务。

- 基于结果的定价模型: 供应商将采用与任务成功率相关的定价,而非通话时长。

本地模型实现设备端语音 AI:

- 无网络连接运行: 将能够在无网络环境下实现本地语音处理。

- 降低延迟: 本地处理能够提供更低的延迟,从而提高响应速度。

- 隐私保护: 数据将保留在本地设备上,从而保障用户隐私。

- 边缘 AI 芯片普及: 专用硬件将支持本地模型的高效运行。

细粒度控制语音:

- 精确控制合成语音: 可以控制情感、语调、节奏和发音等细微之处。

- 与其他 AI 模态协同: 语音特征可以与数字人的肢体语言实现同步。

- 音频编辑更流畅: 可以将 AI 生成的内容无缝融入现有音频,并自动匹配风格。

Voice AI 2024 年度趋势报告

作者:Cartesia

(编者注:本文罗列了多家 voice agent 初创公司,文末附有相关网址,方便读者深入了解。)

今年在 Cartesia,我们很幸运与数百位创始人、产品领导者和工程师合作,他们正在塑造语音应用的未来。在我们 2024 年第一份语音趋势报告中,我们强调了推动行业前进的关键基础设施突破和新兴用例,并展望 2025 年的未来。

2024 年最大的趋势

1.出现了用于构建语音交互的新架构

2024 年标志着对话语音人工智能的突破,出现了结合语音识别(STT)和文本转语音(TTS)模型的协调语音系统,能够在对话中倾听、推理和回应。

语音对语音技术随着 OpenAI 在 ChatGPT 中推出的语音模式成为现实,引入了在音频和文本信息上进行端到端预训练的模型,能够原生理解和生成音频以及文本标记。虽然 OpenAI 通过其 Realtime API 的实现可能尚未完全端到端,正如其演示中处理中断的挑战所证明的那样,但这代表了朝着使用单一统一模型进行语音交互的重要一步。

全双工语音对语音系统作为研究产物出现,通过像 Kyutai 的 Moshi 模型这样的发布。这些模型是「始终在线」的,因为与 OpenAI 的系统不同,它们能够在模型说话时监听用户。这为多模态语音的未来提供了一个有趣的视角,模型始终在用户音频中进行流式传输。

新的语音模型架构变得可行,Cartesia 发布了基于新状态空间模型(SSM)架构的 Sonic TTS,该架构采用自回归训练。这些架构与过去几年流行的更传统的基于注意力的 Transformer 模型有很大不同,因为它们在部署环境中提供了更大的灵活性。现在可以实现内存高效的设备端(on device)部署,同时提高了质量和延迟。

2.语音人工智能 API 进步以支持企业规模的自然对话

在 2024 年,现代语音智能体架构的三个核心组件的改进使语音人工智能能够用自然对话取代僵化的「按 1 键选择英语」电话树。

语音人工智能提供商也超越了最初对专业消费者和语音原生初创公司的关注,以满足企业需求。语音人工智能系统必须从根本上重新设计,以满足超越传统异步应用程序的实时交互严格标准。由于实时对话无法编辑或重新生成,基础设施必须提供保证的正常运行时间、无瑕疵的并发通话处理和无可妥协的可靠性。为了服务传统企业,提供商升级了他们的平台,以提供可定制的服务水平协议、针对高峰量的动态扩展、强大的安全认证以及针对高度监管行业的自托管选项。这些功能在早期的语音人工智能产品中很少见,但随着技术的成熟,已成为标准。

3.新平台使得在生产中构建、测试和部署自定义语音智能体比以往任何时候都更容易。

今天大多数语音助手都是基于核心对话流程构建的——语音转文本(STT)、大型语言模型(LLM)推理和文本转语音(TTS)。

虽然这个管道可以创建自然对话,但在内部构建它面临着重大挑战:管理实时音频流、处理模型延迟、协调轮流发言以及确保无缝过渡。工程团队通常需要 6 到 12 个月的时间来构建的东西,可以通过语音编排平台在几周内实现。这些平台抽象了复杂性,使开发人员能够专注于打造引人入胜的体验,同时混合和匹配最佳组件。

像 LiveKit 和 Daily 这样的公司开发了开源组件,以便在使用 WebRTC 堆栈的实时 AI 模型之间实现无缝、低延迟的编排。他们的基础设施确保全球范围内的可靠性能,同时允许开发人员保持全栈定制。

语音智能体编排平台,如 Vapi、Retell、Bland 和 Thoughtly ,出现是为了快速部署自定义智能体,配备先进的功能,如基于 RAG 的知识库和工具调用功能。这些平台还提供额外的功能,如语音活动检测(VAD)以控制扬声器切换和情感识别、中断处理以及噪声过滤模型,以促进自然对话。

新的可观察性平台,如 Hamming、Coval、Vocera 和 Canonical ,构建了完整的评估套件,用于大规模模拟和测量语音智能体的质量。

(编者注:实时语音 AI 智能体开源框架 TEN Framework 同时具备语音智能体编排、RTC 配置、RAG 和 Function Call、实时状态管理等能力。同时与 Dify 和 Coze 等流行 Workflow 平台兼容。)

4.语音助手在各个领域出现

垂直语音智能体初创公司经历了爆炸性增长,Y Combinator 反映了这一趋势,语音原生公司的数量在冬季和秋季的批次之间增长了 70%。最初的采用集中在扩大之前人手不足的服务的能力,如 24/7 客户运营和季节性业务高峰。

在 YC 孵化项目中,基于语音技术构建公司的增长趋势

5.语音智能体简化了核心业务功能

语音智能体也出现在标准化业务流程中,在三个关键领域得到了广泛应用:

6.语音人工智能驱动更具互动性的娱乐和媒体体验,拥有互动角色

在这里,我们展示了我们感到兴奋的关键领域,以及更多即将到来的领域。我们期待在新的一年里支持并看到更多初创企业在这些领域进行创新!

2025 年会有什么期待

语音对语音模型进入主流

语音到语音(S2S)模型直接将语音输入转换为语音输出,绕过文本表示的需要。虽然在 2024 年出现了几种 S2S 模型,但我们预计 2025 年将是它们的突破年,因为它们在三个传统上挑战 STT→LLM→TTS 管道的关键维度上展示了引人注目的能力:

语音助手将被赋予更复杂的多步骤任务,并在各个领域的工作流程中更加深入地融入。

2024 年标志着语音助手的初步测试阶段,主要处理溢出和基本筛选任务,具有可预测的对话轮次。随着盲 A/B 测试显示出更优的性能指标——包括通话时长、解决率、收入恢复率和客户满意度(CSAT)分数,企业对人工智能驱动的语音互动充满信心。语音人工智能有望成为消费者日常与企业互动的主要界面,从预订餐厅、安排医疗预约到支付账单和处理机动车管理局服务。

试想一下,您致电航空公司重新预订,一个人工智能智能体通过检索增强生成(RAG)技术,端到端地处理您的需求。该智能体能够即时访问乘客记录、航班信息以及航空公司政策。您无需等待或被转接,人工智能即可在自然对话中完成验证当前预订、查找替代方案、应用相关政策并处理更改。这与在知识库上微调大型语言模型(LLM)类似,企业也可以基于自身领域或公司特有的词汇和风格,微调现有的转录和文本转语音模型,从而进一步增强用户对其人工智能智能体的信任。随着人工智能端到端解决复杂任务能力的不断提升,这种信心也反映在新的智能体定价模式上。供应商现在倾向于采用与成功任务解决率相关的按结果付费模式,而不是传统的按通话时长付费。

1.紧凑的本地模型将使得在任何地方进行本地对话成为可能

紧凑的本地人工智能模型正在获得关注,因为它们解决了三个关键挑战:它们可以在没有互联网连接的情况下运行,通过本地处理提供更低的延迟,并通过将数据保留在设备上确保隐私。这使得语音人工智能在这些要求不可妥协的场景中得以应用——从在偏远地区运行的车辆到在信号死区工作的现场人员。

我们预计 2025 年将是设备端语音 AI 的突破年,因为新的架构、模型量化和蒸馏技术逐渐成熟,专用边缘 AI 芯片变得广泛可用,最终使本地处理在生产规模上变得可行。像 TensorFlow Lite 和 PyTorch Edge 这样的框架的进步已经在加速这一转变,使得部署和优化变得更加可及。

2.细粒度控制在语音的各个方面取得进展

2024 年,在合成语音的精细控制方面取得了显著突破,从情感语调、节奏到精准发音,都达到了前所未有的水平。这些进步不仅仅局限于声音本身,更实现了语音特征与其他人工智能模态之间的无缝协调。例如,语音中的情感线索现在可以通过语音合成标记语言(SSML)驱动数字化身的肢体语言,使其呈现出匹配的面部表情,而 SSML 以往主要用于指示停顿或发音。这种技术进步使得内容创作者能够将人工智能生成的词语或场景无缝嵌入现有音频内容中,新加入的内容将自动匹配周围素材的风格和节奏,达到浑然天成的效果。

展望未来

2025 年,语音人工智能将在各个行业变得更强大、更可定制和更易获取,因为这项技术将从早期实验发展到生产就绪的系统。

原文:https://www.cartesia.ai/blog/state-of-voice-ai-2024
编译:傅丰元

更多 Voice Agent 学习笔记:

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨 Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+ 客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服

语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》

Voice-first,闭关做一款语音产品的思考|社区来稿

参考链接
[1] Realtime API: https://openai.com/index/introducing-the-realtime-api/

[2] 演示:https://www.youtube.com/watch?v=1uM8jhcqDP0

[3] Moshi: https://arxiv.org/abs/2410.00037

[4] Sonic: https://www.cartesia.ai/blog/sonic

[5] 设备端:https://www.cartesia.ai/on-device

[6] Whisper: https://openai.com/index/whisper/

[7] Deepgram: https://deepgram.com/product/speech-to-text

[8] GPT-4o: https://openai.com/index/hello-gpt-4o/

[9] Llama 3.2: https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

[10] Claude 3.5 Sonnet: https://www.anthropic.com/news/claude-3-5-sonnet

[11] Gemini 2.0: https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/

[12] Together AI: https://www.together.ai/

[13] 输入流:https://docs.cartesia.ai/build-with-sonic/capability-guides/stream-inputs-using-continuations

[14] LiveKit: https://livekit.io/

[15] Daily: http://daily.co/

[16] Vapi: https://vapi.ai/

[17] Retell: https://www.retellai.com/

[18] Bland: https://www.bland.ai/

[19] Thoughtly: https://thought.ly/

[20] Hamming: https://hamming.ai/

[21] Coval: https://www.coval.dev/

[22] Vocera: https://www.vocera.ai/

[23] Canonical: https://voice.canonical.chat/

[24] Salient: https://www.trysalient.com/

[25] Kastle: https://kastle.ai/

[26] Liberate: https://www.liberateinc.com/

[27] Skit: https://skit.ai/

[28] Abridge: https://www.abridge.com/

[29] Hello Patient: https://www.cartesia.ai/blog/hellopatient

[30] Hippocratic: https://www.hippocraticai.com/

[31] Assort Health: https://www.assorthealth.com/

[32] Superdial: https://www.thesuperbill.com/

[33] Happy Robot: https://www.happyrobot.ai/

[34] Fleetworks: https://fleetworks.ai/

[35] Host AI: https://www.hostai.app/

[36] Nowadays: http://getnowadays.com/

[37] Elise AI: https://www.eliseai.com/

[38] Goodcall: https://cartesia.ai/blog/goodcall

[39] Slang: https://www.slang.ai/

[40] Numa: https://www.numa.com/

[41] Avoca: https://www.avoca.ai/

[42] Mercor: https://mercor.com/

[43] Micro1: https://micro1.ai/

[44] 11x: https://micro1.ai/

[45] Artisan: https://artisan.co

[46] Nooks: https://www.nooks.ai/

[47] Hyperbound: https://www.hyperbound.ai/

[48] Sierra: https://sierra.ai/

[49] Decagon: https://decagon.ai/

[50] Forethought: https://forethought.ai/

[51] Parloa: https://www.parloa.com/

[52] Poly: https://poly.ai/

[53] Heygen: https://www.heygen.com/

[54] Tavus: https://tavus.io/

[55] D-ID: https://www.d-id.com/

[56] Synthesia: https://www.synthesia.io/

[57] Hedra: https://www.hedra.com/

[58] Capcut: http://capcut.com/

[59] Canva: https://canva.com/

[60] Adobe: https://www.adobe.com/express/feature/ai/audio/voiceover

[61] Captions: https://www.captions.ai/

[62]《时代》杂志:http://time.com/

[63]《纽约时报》: http://nytimes.com/

[64] Ego: https://www.cartesia.ai/blog/ego

[65] Inworld: https://inworld.ai/

[66] 语音变声器:https://www.cartesia.ai/blog/voice-changer

[67] Delphi: https://www.delphi.ai/

[68] Sonia: https://www.soniahealth.com/

[69] NotebookLM: https://notebooklm.google/

[70] Replika: https://replika.com/

[71] Character AI: https://character.ai/

[72] Tolvia: https://tolvia.com/

[73] Poe: https://cartesia.ai/blog/quora

[74] Perplexity: https://www.perplexity.ai/


↙↙↙阅读原文可查看相关链接,并与作者交流