编者按:

A16Z 在《AI Voice Agents: 2025 Update》中提到: 语音是 AI 应用公司最强大的突破之一。 它是人类沟通中最频繁(也是信息密度最高的)形式,AI 也让其首次变得 “可编程”。

在 13 期 Z 沙龙,我们聚焦 AI+Voice Agent(语音助手),深入探讨了 AI 声音方向的潜力。包括情感拟人,情商觉醒、热门的全双工语音等等。

「Z 计划」和 RTE 开发者社区一起有幸邀请了知名社交 App 技术负责人、多家模厂语音负责人、AI 外呼创业者、智能家居,车载等场景大厂高管等行业大咖分享经验。本文尽量还原了在场所有嘉宾的讨论和 “去立场” 发言,编者节选了一些有意思的【话题】放到这里:

具体内容还需要读者们到文章中寻找,整理不易, 转发点赞在看!

以及来自两个社区的邀请:

每一款产品背后都凝聚着创作者的心血,如果你是一名 AI+Voice Agent(语音助手)的创业者,欢迎联系 Z 计划,我们愿意提供 tokens/现金/技术支持等等,来帮助大家更好地迭代产品,让 AI 工具惠及千家万户。

RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群(加入方式见文末),一同探索人和 AI 的实时互动新范式。

目录 建议结合要点进行针对性阅读。👇

一、从业者谈

1、Voice agent builder 三大能力:懂 LLM、知道实时互动工程、了解场景用户痛点

2、智谱 MaaS 开放平台:GLM 实时音视频交互

3、Soul 的 AI 社交探索

二、圆桌讨论

1、技术栈:有哪些关键决策及痛点?

2、落地场景:如何找到 Product Market Fit?

3、商业模式:价格战与收费模式的演变

三、核心结论:2025,Voice Agent 元年!

四、附录:Z 计划好物速报

1、Sesame:开源语音生成模型 CSM-1b

2、Canopy Labs:开源 TTS 模型 Orpheus

3、OpenAI:Speech-to-Text & Text-to-Speech Model

4、x.AI: 发布多音色 + 多性格的 Grok

5、TEN:快速构建实时多模态 AI Agent

1.从业者谈

技术术语提要:级联方案 = ASR + LLM + TTS ,本质是 “语音转文字再转语音” ,而端到端模型则是 Voice-to-Voice。

ASR(Automatic Speech Recognition),自动语音识别。ASR 的目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。

TTS(Text-to-Speech),文本到语音:将文本转换成自然流畅的语音输出,使得机器能够 “说话”。其中,音色克隆是给到十几秒到几分钟的音频,复刻音色,用以生成语音;定制发音人进行录音,微调得到高质量发音人;Prompt TTS 输出输入文本和对声音的描述,生成对应语音。

1、Voice Agent Builder 三大能力:懂 LLM、知道实时互动工程、了解场景用户痛点

杨慧:RTE 开发者社区发起人,声网生态运营中心负责人。

RTE 开发者社区绘制的 Voice Agent 产业生态全景图:2024,语音 AI 基建逐渐完善;2025,Voice Agent 即将爆发。

2、智谱 MaaS 开放平台:GLM 实时音视频交互

2.1 当前技术路线及体验通道

其中:

Realtime 感知模块: 基于多模态实时数据输入(视频、音频、文本),通过连续视频帧处理(多帧/秒)、 Vad 语音活动检测、ASR 实时字幕生成 等技术,实现对环境与用户的动态感知。结合 世界理解 能力,实时解析物理场景(如设备状态、用户动作)与交互意图,支持对穿戴设备、具身机器人等终端的实时适配,并通过 跨模态信息融合(如 AI 眼镜的视觉增强、语音指令的同步处理)提升环境感知精度,为后续推理提供高时效、多维度的上下文输入。

推理多商模块: 依托跨模态实时推理引擎(Audio LM、Video LM),整合多源数据(语音、视频、文本)与外部信息(如工具调用、知识库),实现多维度智能决策。核心能力包括:多带推理、Tokenizer 向量化、会话状态管理;并且通过实时打断处理与即时响应机制(首部 500ms 延迟),确保复杂场景下的高效决策。

输出/交互模块: 基于流式输出技术,生成拟人化、低延迟的交互反馈。

○ 多模态输出:支持语音(拟人音色、多情感/语速调节)、文本(实时字幕)、视频(动态表情渲染)的同步输出。实现智能交互控制:通过 Function Call 工具调用 连接现实工具(如智能家居控制),结合会话状态实现任务导向交互;即时响应优化:采用分片流式传输,优先返回首部内容(500ms 内),支持用户实时打断与话题切换,保障对话流畅性。最终提供身临其境的实时音视频体验,实现自然的人机共生交互。

此外,系统支持流式输出,可动态调整语音的情感、语速、方言等参数,可以进一步提升交互自然度。

✨体验智谱 Realtime 语音交互大模型吧!BigModel 开放平台快速通道:

https://bigmodel.cn/trialcenter/audiovideocall/experience

2.2 智谱开放平台的业界实践

2.3 QA

Q:这是端到端模型吗?语音有无 scanning?为什么选择了两个模态,有无可能是三个模态在实践中更难落地?记忆 input token 只有 2 分钟?

A:

1、是端到端的模型。

2、语音有 scanning。

3、目前技术方案没有定型,在看哪种路线能先商业化。

4、实际是 context token 上限。

Q:文本模型用的 prompt 和音频模型是对齐的吗?

A: 不是。我们正在写 prompt 的撰写方法,内部实验了大几百条材料,然后会给大家一套新的 prompt 的撰写方法。

3、 Soul 的 AI 社交探索

尹顺顺,Soul AI 技术负责人。

上海任意门科技有限公司旗下新型社交平台 Soul App 上线于 2016 年,基于兴趣图谱及虚拟身份的即时交流和游戏化产品设计,为用户提供自在互动体验。Soul 自上线以来便布局 AI 为代表的新技术,快速推出了灵犀引擎,智能链接人与人、人与内容。2020 年平台系统启动 AIGC 技术研发工作,积极推动 AIGC 在社交场景的深度融合,并于 2023 年推出自研大模型 Soul X,将 AI 技术和平台社交、游戏等场景结合,例如推出了超拟人聊天机器人 “AI 苟蛋”、AI 聊天助理、狼人杀 Agent、数字分身和最新的 AI 虚拟人智能陪伴功能等,展现了 “模应一体” 的产品理念。

3.1 Soul 如何解决陌生人社交的痛点?

a. 供给不足:社交资源供给不足部分源于性别差异,所谓 “得女性用户者得天下”,正描述了 “女少男多” 且很难改变的现状。同时,男性需要社交,而女性需要高质量的社交——女性具有较高的倾诉和自我表达的需求。社交需求很多元化,门槛很高。这种供给不足所造成的困境具体表现为用户的种种苦恼:为什么 Ta 不理我?为什么没人一起玩游戏?为什么没有好玩的内容?

b. 效率较低:随着人们的年龄自然增长,交新朋友的时间成本会逐渐提高。由于建立信任是长期过程,相互了解的前提是投入精力,但人们精力又有限,所以导致无论是在现实中还是在线上,大家很难快速了解一个陌生人。即使匹配到了兴趣点相似的陌生人也存在着不知道如何破冰等问题。例如,一位用户点开 Soul App 发现有 99+ 条新消息,却不知道应该优先回复谁,系统无法做进一步的精排。也有用户反映 “找不到感兴趣的 Ta”,或 “不知道 Ta 是谁,该和 Ta 聊什么。”

c. 流量分配失衡:社交场域的 “二八定律” 显示,80% 的社交资源掌握在 20% 颜值相对更高、更具备聊天技巧的用户手中。

Soul 如何解决上述痛点?

a. 针对供给不足的痛点,Soul 尝试提供 AI 虚拟人。目前 Soul App 端支持文字、语音、视频聊天,实现多模态交互;拟人化程度极高,兼具工具属性;具备人设、形象和声音,每个虚拟人都有属于自己的故事主线 ;虚拟人能够自主运营高质量内容。Soul 团队发现,通过 AI 精准匹配,只要虚拟人的对话和陪伴能力足够强,能做到足够拟人、提供足够的情绪价值,会有足够高的用户留存。

b. 针对效率较低的痛点,Soul 的 AI 解法是搭建 “数字分身代理”,即保持认知 + 决策 + 偏好一致性,身份 + 人设 + 记忆一致性,形象 + 声音 + 文字风格一致性。

c. 针对社交场域的流量分配失衡痛点,Soul 早先执行了 “去颜值化” 的社交方案 ,即不让颜值等无法改变的要素影响实际流量分配,进一步强化用户之间的情感交流及匹配度。

3.2 技术亮点:SoulX-Voice 的前世今生

由 V1 到 V2,实现端到端全双工语音通话系统

a. 开发背景:Soul 团队发现,在陪伴类场景,用户说一句 Agent 再回复一句的回合式对话太过于机械化,非常破坏用户体验,需要通过端到端设计 让 Agent 自主决定什么时候该说话 ,甚至是考虑直接丢掉延迟概念,无 VAD 嵌入。至于为什么选择直接丢掉延迟而不是使用一些 trick,Soul 团队内部测试过但发现 Agent 对发言时机的判断仍不精准。在上述背景下,Soul 选择开发一款端到端的 “全双工语音通话系统”。

b. 技术要点:SoulX-Voice V2 的端到端 “全双工语音通话系统” 是一个多流方案, 核心是把打断时机建模到模型中。 相较 SoulX-Voice V1,SoulX-Voice V2 能够实现更多功能,进一步提升用户体验。例如,语音 Agent 可能会主动和用户对话、可能不回复或回复用户很多句话、可能在必要时打断用户说话、可能会和用户合唱(现在很多系统无法实现该功能)、可以和用户同时说话、或和用户直接连麦睡觉。

c. Demo 展示:Soul 在 Z 沙龙现场展示的 demo 中,语音 Agent 绑定了四川人的人设,而四川人设不能说北京话,为保持人设一致,该 Agent 会主动拒绝用户 “说北京话” 的要求。

下一步,让用户看到虚拟人的世界

编者按:

论文链接:
https://arxiv.org/abs/2411.19509v1

3.3 产品落地:狼人觉醒、虚拟伴侣与语音房 Agent

1.Soul AI 狼人觉醒:2024 年 3 月份上线,是多 Agent 的狼人杀系统,也是首家云狼人杀软件。在一局游戏中,往往只有 1 个玩家是真人用户,其他都是虚拟人,而虚拟人之间不知道对方的身份。

2.Soul 虚拟伴侣:70%-80% 内容由 AI 生成的,运营团队负责运营精品人设,运营虚拟人的主页内容。Soul 比较看重人设,还会建模时间间隔信息,这对提高虚拟伴侣的拟人程度很有帮助。

3.Soul 语音房 Agent:包括 AI 读文房主、AI 评测房主和多 Agent 互聊(内测中)。例如,AI 测评房主可以在后续跟用户的交互,根据用户发的内容进行 “锐评”。

3.4 长期思考:人类为什么接受 AI 社交?

1.社交需求一致存在,但是社交资源始终失衡。

2.虚拟并不是不存在情绪价值, 情绪价值是真实的。Agent 越真实,用户越想要。

3.时间投入、共同记忆是 “沉淀关心” 的核心。 用户也知道 Agent 是虚拟的、是虚构的——Ta 走不出来、没法跟你谈恋爱、也没法跟你在现实中成为朋友。但是,用户依旧会感动、会共情,正是因为用户投入了时间经历了虚拟人的经历,让虚拟人的故事沉淀为自己的记忆。

4,技术进步带来的心智变化。Soul 做的 “AI 苟蛋” 产品有足够的聊天支持,用户愿意去跟苟蛋倾诉加班加地很辛苦。在这种交流中,人的更高层次的需求被逐渐表达出来了。虚拟人类似无人驾驶,真实度、智能度变得足够高之后,用户的接受度会逐渐提高。

3.5 QA

Q:在您展示的唱歌 demo 中,有将 RAG 放到 LLM 里做推理吗?

A: 有放到 LLM 里去推理。试过训练和推理都不加 RAG,也试过在训练不加 RAG 而推理加入 RAG,但是效果不令人满意。现在的技术是唱一个别人唱过的歌曲,提高了一些训练数据的比例、加入解码逻辑,可以唱的挺好。

Q: 视频生成是生成 Wave 之后再生成视频?

A: 目前是音频驱动,只不过先基于音频把路走通,之后再基于画面再驱动就是换个 condition 的问题。

Q: 算力端,需要多少卡、成本如何?怎么在如此便宜的市场里找 PMF?

A: 分两步走,第一步是 5 月份落地 AI 直播,后续会用新方案,AI 直播场景可以一对多生成,无需考虑成本,可能会用个位数量级的 H800 做推理。今年,Soul 的一条业务线在做 1v1 场景。

2.圆桌讨论

1、技术栈:有哪些关键决策及痛点?

1.1 选型

级联 vs 端到端方案

○我们 StepAudio 会同时关注多种方案,比如端到端方案、中间方案(内部称为 AQTA+TTS,Audio Gen 基础上接入模型,也有单独的 TTS)、级联方案方案。从系统架构的角度上来看,会希望模型进行端到端的统一。后续学术、产业界可能也会更多的关注 AQAA 相关工作。

○对于 AQAA 如果结合各种工具调用是有一定难度的,在 audio 回答过程中触发各种外部知识,例如 RAG+function call ,那么需要把知识以文本的形式灌入到语音模型回答中,这种多模态来回切换对于模型的多模态能力要求很高,也很有难度。这种也有很多不同形式的探索,比如 GM4 输出的时候会有 Audio 和文本的混排。

○Why AQAA?希望在做 TTS 的时候希望能够带着对上下文的理解去生成,并且回答时会带着细粒度控制。有些时候可以通过设置特殊 token 的方式,控制力度可以但是不够细致,例如有一句话说要让说方言,有些不需要说,需要理解音频的情况下进行细粒度控制输出。所以这个中台方案和 AQAA 本身的原理是非常吻合的。

编者按:

能否把 TTS 嵌入到 LLM 中?

能否丢掉 ASR?

ASR 准确率、TTS 拟真度

一位与会嘉宾指出:

1.2 数据集

编者按:

1.3 效果评估

一位来自数字人创业公司的嘉宾指出:我们有很多角色,有的用户喷某个角色,有的用户很爱。所以用户真实的需求到底是什么?拟人度、流畅度是否是真需求?这些问题都没有明确定论,最终可能很自然、清晰度很高,但就是给用户的感觉不好。

一位与会嘉宾分享:

也有嘉宾指出:

目前有些 Paper 的 TTS SER(Sentence Eror Rate,句错率)甚至能达到 5%、2% 甚至更低,但 SER 并不是越低 TTS 听着就越好,还要考虑自然度、抑扬顿挫的音色、克隆度(越像越好)。

1.4 Corner Case:可打断功能、方言处理

○ Soul App 的解决方案:目前 Soul 没有特别主攻方言。

▪非通用的解决方案是拿到了用户脱敏、合规的数据,知道用户的家乡,只是把数据打标签,输入到模型中,如果数量足够大是可以出效果的。某些方言和语种对不到汉字需要拼音标注。这个方案对 Soul 来说不是特别难的问题因为数据充足。

▪而且,现在的技术方案脱离不了 Text,有些拟声词 ASR 识别不出来,所以会补全各种拼音(例如对粤语补全拼音)、对 “嗯嗯啊啊” 这种拟声词做 Token+ 建模了 duration。

○阶跃星辰 StepAudio 的解决方案:团队做 App 的时候优先考虑了几种主流方言,但方言语种的需求是非常多的,需要长时积累和打磨。也探索过人工采集标注的方案,最后因为质量和效率的原因,考虑了大语言模型去合成方言的路线。

▪LLM 合成方言:我们发现模型泛化性足够强,很多模型已经具备方言的生成能力,例如给出方言 prompt 进行续写或者少量微调之后可以控制生成。这样训模型加少量标注数据的多轮迭代,就可以让模型具有基础的能力,以便于强化这些能力。

▪另外对于一些特别小众的语种,可能要看原始数据中的比例。如果原始模型已经见过几十万甚至上百万小时左右的数据,那么不要特别特别多的数据,可能千条量级的高质量的对话数据去微调就足够。但是像是一些特别小众的语种,原始数据也比较少,那么则需要积累大量的数据才能有一定的效果。

2、落地场景:如何找到 Product Market Fit?

2.1 To B 场景:

智能家居

一位来自头部智能家居企业的 AI 产品经理分享道:

嘉宾继续分享智能家居场景目前存在的技术卡点:

针对上述技术卡点,阶跃星辰 StepAudio 团队和智谱团队回应道:

保险外呼

一位来自头部保险公司的语音团队负责人分享道:

○车牌号识别需突破同音字歧义难题(如"贵 A·B123"需精准区分"贵州"与"贵阳"归属地),并实现多语言混合识别(如中英文车牌混编场景);

○车型核验则要求 ASR 系统在噪声环境下准确捕捉复杂专业术语。

HR 外呼

一位来自头部猎头公司的技术负责人分享道:

2.2 To C 场景:

播客类

某 AI 播客创始人分享:

数字人

○也有嘉宾分享,在我们的数字人业务中,语音通话在请求量中占比 50%。但我们遇到的问题是语音通话质量很差。我们之前用 benchmark 评测的时候语音模型的时候效果还行,但实际上人耳都可能分不清,方言口音非常多、录音质量很差。ASR 识别准确率极大影响模型效果,目前的最大痛点是 SER(Sentence Eror Rate,句错率),仍在想办法优化中。

2.3 商业模式:价格战与收费模式的演变

一位与会嘉宾分享:

另一位与会嘉宾进行了总结:

总体而言,效率是议价指标,平台开放性决定效率。例如,如果一家 Voice Agent 公司接入硅基流动平台,理论上就有可能可以接所有的模型进行收费。

3.核心结论:2025 是 Voice Agent 元年

4.附录:Z 计划好物速报

在这里,我们也特别介绍几款最新开源的 Voice Agent 工作,欢迎大家体验:

1、Sesame:开源语音生成模型 CSM-1b

近期,开发虚拟助手 Maya 的 Sesame 团队搞了个大新闻——开源了全新语音生成模型 CSM-1b。CSM-1b 能根据文本和音频输入直接生成 RVQ 音频代码(Residual Vector Quantization),目标是实现真正的"语音在场感(voice presence)",让 AI 对话像真人唠嗑一样自然。

功能亮点

1️⃣ 情感读心术:通过语义 + 韵律双雷达(Emotional Intelligence),精准捕捉对话中的情绪暗流

2️⃣ 接话王者:300ms 极速响应(Conversational Dynamics),连停顿、抢话都模仿得惟妙惟肖

3️⃣ 记忆大师:基于 Transformer 的跨轮对话跟踪(Contextual Awareness),实时调整音色和语气

4️⃣ 人格不精分:用对抗训练(adversarial training)锁死固定人设(Consistent Personality)

技术架构揭秘

传统 TTS 系统总被吐槽"机械音",问题就出在 RVQ 技术——虽然能把语音拆成语义标记(semantic tokens)和声学标记(acoustic tokens),但建模韵律像开盲盒,延迟还属于较高水平。

CSM 模型的关键组成架构包括:

实测数据

模型:https://www.modelscope.cn/models/sesameAILabs/csm-1b

CSM-1B 体验链接:https://modelscope.cn/studios/sesameAILabs/csm-1b/summary

Sesame 官网:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice

2、Canopy Labs:开源 TTS 模型 Orpheus

近期,Canopy Labs 全新开源 TTS 模型 Orpheus。Orpheus 以其接近人类的自然情感表达、超低延迟的实时输出以及强大的零样本语音克隆能力,迅速成为开源社区关注的焦点。

不仅能生成流畅自然、充满情感的声音,还将延迟压缩到令人惊叹的 25-50 毫秒,完美适配实时对话场景。

功能亮点

1️⃣ 情感影帝:只需几十条标注样本,就能让 AI 秒变哭腔/慵懒/叹息(Guided Emotion)。

2️⃣ 声纹复印机:零样本语音克隆(Zero-Shot Voice Cloning)直接封神,听过一次的声音立刻复刻。

3️⃣ 闪电嘴速:将延迟压缩到 25-50 毫秒,实现超低延迟实时流式推理(realtime streaming),文本能够边输边播。技术架构揭秘

传统语音 LLM 总被 SNAC 解码器(SNAC Decoder)的"爆音跳帧"困扰?Orpheus 提出了两大反传统设计:

实测数据

训练数据:10 万小时语音 + 数十亿文本 token。提供四种不同量级的版本: Medium 版:30 亿参数 Small 版:10 亿 Tiny 版:4 亿 Nano 版:1.5 亿

在线 Demo:
https://huggingface.co/spaces/MohamedRashad/Orpheus-TTS

GitHub 项目地址:
https://github.com/canopyai/Orpheus-TTS

3、OpenAI:Speech-to-Text & Text-to-Speech Model

近期,OpenAI 发布了三款全新语音模型:语音转文本模型 GPT-4o Transcribe 和 GPT-4o MiniTranscribe,以及文本转语音模型 GPT-4o MiniTTS。这些模型都提供了 API 的接入方式,用户也可以直接点击下面链接 Build 属于自己的 Voice Agent。

OpenAI 开发者平台:https://www.openai.fm/

3.1 Speech-to-Text Model: GPT-4o Transcribe

近期,OpenAI 推出全新语音转文本模型 GPT-4o Transcribe,基于 GPT-4o 技术构建。该模型在多项基准测试中全面超越现有 Whisper 系列,凭借更低的词错率(WER)和强大的多语言处理能力,重新定义了语音识别的精度标准。尤其在口音识别、噪声环境适应和语速变化处理等复杂场景中表现卓越,现已正式开放 API 接入。

核心优势

1️⃣ 精准转录专家:通过强化学习创新与高质量数据集训练,显著提升对语音细微差别的捕捉能力,误识别率大幅降低。

2️⃣ 多语言通才:在覆盖 100+ 语言的 FLEURS 基准测试中,词错率全面优于 Whisper v2/v3,展现更强转录准确性与语言包容性。

3️⃣ 场景适应王者:专为复杂场景优化,对口音、环境噪声、语速变化的鲁棒性显著增强

技术突破

亲民定价

性能实证

体验链接:https://platform.openai.com/docs/models/gpt-4o-transcribe

Demo:https://openai.com/index/introducing-our-next-generation-audio-models/

3.2 Speech-to-Text Model: GPT-4o Mini Transcribe

除了 GPT-4o Transcribe,OpenAI 也推出轻量级语音转文本模型 GPT-4o mini Transcribe,基于 GPT-4o mini 技术构建。该模型在保持高性价比的同时,词错率(WER)和语言识别准确率均显著超越原版 Whisper 系列,为用户提供更精准、更可靠的转录体验。

核心优势

1️⃣ 精准升级:词错率(WER)全面优化,转录准确度超越原版 Whisper 模型。

2️⃣ 多语言增强:提升语言识别能力,适应更广泛的语音场景。

3️⃣ 高性价比:以更低成本提供更优性能,适合高效转录需求。更低定价 GPT-4o-mini-transcribe:$0.003/分钟(性价比之选)。

体验链接:https://platform.openai.com/docs/models/gpt-4o-mini-tts

3.3 Text-to-Speech Model: GPT-4o mini TTS

OpenAI 全新发布 GPT-4o mini TTS 语音合成模型,首次实现"说话方式自由编程"——开发者不仅能指定说什么,更能精准控制怎么说(steerability),为客服到创意叙事等场景打造定制化语音体验。

功能亮点

1️⃣ 声线调音台:实时调节口音(Accent)、语调(Intonation)、语速(Speed)等 10+ 参数,支持耳语(Whispering)、模仿(Impressions)等特殊效果。

2️⃣ 闪电输出:专为实时场景优化,延迟低至行业领先水平,支持 2000token 长文本输入。

3️⃣ 声库全家桶:内置 11 种预设音色(Voice Options),包含 alloy、nova、echo 等风格,英语适配度拉满。

技术架构

突破传统 TTS 模型只能固定输出的限制:

实测数据:

体验链接:https://platform.openai.com/docs/models/gpt-4o-mini-tts

4、x.AI: 发布多音色 + 多性格的 Grok

近期,马斯克旗下人工智能公司 xAI 正式推出 Grok Voice 实时语音交互模式。作为 xAI 开发的对话式人工智能助手,Grok 凭借其突破传统的内容审查机制和自由开放的对话风格广受用户青睐。本次发布的语音模式延续该特色,其标志性"失控模式"(Unhinged Mode)支持用户进行包含俚语的非传统对话,开创性地实现人工智能与人类的无障碍深度互动。

基础语音模式

人格化角色模式

技术亮点:

✅ 声纹与人格深度绑定,实现「声音即人设」。

✅ 支持实时动态切换,适配不同社交场景。 🔥 现已开放 API 接入,开发者可定制专属语音交互体验。

5、TEN:快速构建实时多模态 AI AgentTEN

是一款实时对话式语音 Agent 引擎,旨在帮助开发者快速构建具备音视频交互能力的 AI Agent。目前,TEN 已支持包括 Deepseek、OpenAI、Gemini 在内的全球各大主流 STT、LLM、TTS 厂商。此外,TEN 还可无缝接入 Dify 和 Coze,只需配置 Bot ID/API 即可轻松赋予您的 Bot 语音能力。

TEN 的主要优势

快速体验:
https://agent.theten.ai/

本地部署:
https://github.com/TEN-framework/TEN-Agent

‍—end—

作者:尹顺顺、Cythina Yang、贾世坤、及 Z 沙龙全体 40 位嘉宾

主持人:严宽

整理及编者:陈薇冰、傅丰元、严宽

审阅:邓瑞恒

更多 Voice Agent 学习笔记:

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾


↙↙↙阅读原文可查看相关链接,并与作者交流