AI测试 Kyutai 团队创立新语音 AI 公司 Gradium,融资 7000 万美元;AWS 端到端语音模型升级:多语言切换跨模态交互丨日报

RTE开发者社区 · 2025年12月04日 · 23 次阅读

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃**

01 有话题的技术

1、字节跳动 Seed 推出 GR-RL,机器人首次完成真机穿鞋带

#####

图片

昨天,字节跳动 Seed Research 团队正式发布最新研究成果 GR-RL,在真实机器人平台上首次实现了「连续为整只鞋穿鞋带」的复杂操作。

字节跳动称,这一突破标志着视觉 - 语言 - 动作(VLA)模型在精细灵巧任务上的能力边界被显著拓展。

团队指出,主流模仿学习存在两大缺陷:人类演示数据的「次优性」以及训练与推理之间的「执行错位」,导致模型在毫米级精度任务中频繁失败。

为此,Seed 团队选择真机强化学习路径,提出了多阶段训练框架,包括离线数据筛选、数据增强以及在线强化学习。

在双臂机器人 ByteMini-v2 上,GR-RL 将穿鞋带任务成功率从监督学习基线 GR-3 的 45.7% 提升至 83.3%,失败率减少近 70%。

其中,数据过滤、镜像增强和在线强化学习均对性能提升贡献显著。实验中,模型展现出类似人类的「纠错智能」,在鞋带滑落或摆放位置不佳时能主动调整并重试,体现了对任务物理逻辑的理解,而非单纯轨迹记忆。

团队认为,强化学习经验应进一步蒸馏回基础 VLA 模型,以构建兼具高精度操作与强大泛化能力的通用策略。

论文链接:

https://arxiv.org/abs/2512.01801

项目主页:

https://seed.bytedance.com/gr_rl

( @APPSO)

#####

#####

2、AWS 发布 Amazon Nova 2 Omni 预览版:行业首个多模态推理与图像生成一体化模型
****

图片

AWS 宣布推出 Amazon Nova 2 Omni 的预览版,这是一款行业首创的、集成了多模态推理与图像生成能力的通用模型。该模型能够处理文本、图像、视频和语音输入,并生成文本和图像输出,极大地简化了多模态 AI 应用的开发和管理。

该模型支持 100 万 token 的上下文窗口,文本处理支持 200+ 语言,语音输入支持 10 种语言。能够通过自然语言生成和编辑高质量图像,实现角色一致性、图像内文本渲染及对象/背景修改。

该模型可进行多说话人对话的转录、翻译和摘要。具备灵活的推理控制,确保在不同用例下的性能、准确性和成本效益。 可用于营销内容创作、客户支持电话转录、视频分析以及带视觉辅助的文档生成等多样化任务。

Amazon Nova 2 Omni 目前处于预览阶段,Nova Forge 客户可申请早期访问。

https://aws.amazon.com/about-aws/whats-new/2025/12/amazon-nova-2-omni-preview/

(@AWS News Blog)

3、Amazon Nova 2 Sonic 发布:端到端、多语言切换、跨模态交互
****

图片

AWS 发布了 Amazon Bedrock 的新一代语音到语音(speech-to-speech)基础模型 Amazon Nova 2 Sonic。该模型在对话质量、成本效益和语音理解方面实现了行业领先,能够为开发者构建更自然、更具人情味的语音应用程序,实现突破性的实时语音交互体验。

  • 突破性对话质量: Nova 2 Sonic 在保持对话连贯性和人类偏好方面表现出色,能够自然处理用户打断,并提供富有表现力的男性和女性声音,支持多语言的流畅切换(code-switching)。

  • 增强的智能与可靠性: 该模型在 Big Bench Audio、BFCL 和 ComplexFuncBench 等关键评估基准上表现优异,展现了更强的推理能力、更准确的功能调用和更复杂的任务处理能力。ASR 准确性也得到提升,能更好地处理数字、短语及 8KHz 电话语音。

  • 多语言与 Polyglot 声音: 除了原有的语言,Nova 2 Sonic 新增了葡萄牙语和印地语支持。其创新的「Polyglot Voices」功能允许同一声音在同一对话中无缝切换语言,极大地简化了为全球用户构建多语言应用。

  • 跨模态交互: 用户可以在同一会话中混合使用文本和语音输入,例如先输入文本,再通过语音进行回应,实现更灵活的交互方式。

  • 高级多智能体能力: Nova 2 Sonic 支持异步工具调用,允许 AI 在后台运行外部工具或服务的同时,继续响应用户输入,从而处理更复杂的多步骤任务,保持对话的流畅性和响应性。

  • 深度集成: 模型已直接集成到 Amazon Connect、Vonage、Twilio 等主流电话服务提供商以及 LiveKit 和 Pipecat 等媒体平台,简化了在现有呼叫中心基础设施或新电话服务中的部署。

Amazon Nova 2 Sonic 已通过 Amazon Bedrock 提供通用可用性,模型 ID 为 amazon.nova-2-sonic-v1:0。该模型在 US East(N。 Virginia), US West(Oregon), Asia Pacific(Tokyo), 和 Europe(Stockholm) AWS 区域可用。定价与原 Nova Sonic 保持一致。

(@AWS News Blog)

4、Kyutai 团队创立新语音 AI 公司 Gradium,种子轮融资 7000 万美元

#####

图片

初创公司 Gradium 今日宣布成功完成 7000 万美元种子轮融资,投资方包括前谷歌首席执行官埃里克·施密特、法国电信亿万富翁泽维尔·尼尔和 Yann LeCun 等投资者。

正式推出同名核心引擎 Gradium 是一种开创性的「音频语言模型」(Audio LLM),它将语音的生成、转录、转换和对话统一到一个单一的神经网络架构中。该模型旨在实现超真实、富有情感表达、低延迟且高效可扩展的语音交互。最终使自然、实时的语音成为人机交互的默认界面。

其创始团队与非营利实验室 Kyutai 有着深厚渊源,该实验室在多模态 LLM 领域取得了显著进展,包括在 2024 年开源了实时对话模型 Moshi。

首席执行官 Neil Zeghidour 已退出 Kyutai 的日常工作,但将加入其董事会。他表示这家非营利组织仍致力于开发开源 AI 模型和研究的使命。这家初创公司目前有八名员工。

公司由四位来自 Meta 和 Google DeepMind 的生成式音频领域先驱者联合创立。他们不仅在神经网络音频编解码器和音频语言模型等方面做出开创性贡献,还共同创建了非营利实验室 Kyutai。

目前 Gradium 已支持英语、法语、德语、西班牙语和葡萄牙语的实时转录和合成功能。其技术已应用于医疗、客户支持、市场研究中的语音智能体,以及游戏 NPC 和数字广告中的虚拟形象。

开发者和企业可以通过访问 gradium.ai 探索 Demo、试用 API。

体验 demo:https://gradium.ai/#demo

(@Gradium Blog、@Bloomberg)


****

02 有亮点的产品

1、Hedy AI 推出「Topic Insights」,首创跨会话会议智能技术
****
Hedy AI 发布了其最新功能「Topic Insights」,这是行业内首个能够跨多个相关会议分析模式的技术。该功能解决了现有会议 AI 平台在处理连续性对话方面的短板,通过理解讨论如何随时间演变,提供了真正的对话连续性,从而帮助专业人士更好地跟踪决策和进展。
****
  • 跨会话模式识别: 「Topic Insights」能够识别反复出现的主题,追踪不断发展的讨论,并突出在无限相关对话中利益相关者立场的变动。

  • 智能会议准备: 在开始新会议时,用户将收到 AI 生成的准备笔记,其中包含之前会议中已做出的承诺、待解决的问题以及未解决的事项。

  • 情境感知分析: 该智能体能自动识别对话类型,并为商业会议、医疗咨询、学术讲座、面试等九种不同专业场景应用专门的分析框架。

  • 行业预测: 预计到 2030 年,全球会议智能市场将达到 136 亿美元,而 67% 的专业人士认为会议准备是一项主要的生产力挑战,凸显了该功能的重要性。

  • 技术创新: 该功能得益于突破性的对话 AI 架构,包括保持会话上下文的「Contextual Memory Architecture」和零幻觉设计,确保所有洞察均基于实际内容。

「Topic Insights」已立即面向所有 Hedy Pro 订阅用户推出,支持 iOS、Android、macOS 和 Windows 平台。该功能包含在 Hedy Pro 订阅中,价格为每月 9.99 美元,每年 69.99 美元,或一次性终身访问 199 美元。此外,还提供每月 5 小时使用量的免费套餐。

(@GlobeNewswire)

#####

#####

2、AI 情感交互台灯「Ongo」发布,玩具总动员编剧参与设计

#####

昨天,互动机器人公司 InteractionLabs 宣布正式发布 AI 台灯 Ongo,定位为「有生命的台灯」,除具备照明功能外,还能通过人工智能与用户进行情感交互。

#####

该产品由 CEO Karim Rkha Chaham 与 CTO Julien Ajdenbaum 共同开发,创意总监为曾获奥斯卡提名的玩具总动员编剧 Alec Sokolow。

Ongo 的设计强调情感智能与环境感知。它能够识别用户的面部表情,感知工作节奏,并通过光线与动作进行回应,帮助用户在专注时自动调暗灯光,营造安静氛围。

此外,设备捕捉到的视觉数据仅在端侧处理,确保隐私安全,并配备可磁吸的遮光镜片以提供完全的隐私模式。

在功能层面,Ongo 的交互逻辑由故事化设计驱动,旨在减少用户对屏幕的依赖,成为桌面上的情感伙伴。有开发者提出,未来 Ongo 或可结合健康监测模型,实现水分与血糖水平的检测。

发售不久后,CEO Karim 在 X 上宣布,首批 100 台 Ongo 已售罄,并将开放新的购买名额。

( @APPSO)


###

03 有态度的观点 

1、英伟达 CFO 否认「AI 泡沫」论

NVIDIA 靠 AI 成为全球首个 5 万亿美元市值的科技巨头,尽管现在股价比高峰跌落了 10%,也引发了 AI 泡沫的争议,但 NVIDIA 对此坚决否认。

该公司 CFO Colette Kress 表示,她并不认为人工智能领域存在泡沫,相反的是,她预计未来市场将发生重大转型。

预计到 2030 年,在对加速计算需求不断增长的推动下,数据中心基础设施规模可能达到 3 万亿至 4 万亿美元。

Colette Kress 还提到,目前出货的大多数 NVIDIA AI 芯片都是用于构建新的数据中心基础设施,而不是替换现有设备。

她还表示,到 2026 年,NVIDIA 手中 Blackwell 和 Rubin 两款 GPU 芯片订单额高达 5000 亿美元(超过 3.5 万亿元)。


而且这些订单还不包括 NVIDIA 目前正就 OpenAI 下一阶段协议所做的任何工作,Colette Kress 称 NVIDIA 与 OpenAI 完成一份最终协议,OpenAI 正继续沿着他们的道路前进,NVIDIA 相信与他们的合作永远不会停止。

@AI 数字经济)


04 社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、活动推荐:Interspeech 2026 丨首届音频推理挑战赛

#####

由来自上海交通大学、南洋理工大学、伦敦玛丽女王大学、卡内基梅隆大学、英伟达、阿里巴巴、微软的研究者们联合举办的 Interspeech 2026 音频推理挑战赛现已开启!本次挑战赛旨在解决当前大型音频语言模型(LALM)推理能力有限且不稳定的问题,聚焦于复杂声学场景下的思维链(CoT)推理能力。挑战赛设有以下两个赛道:

  • 单模型赛道(Single Model Track): 聚焦于基于开源模型进行数据创新与训练创新,提升模型内在的推理能力。

  • 智能体赛道(Agent Track): 聚焦于基于开源模型的系统级编排与工具调用能力。

挑战赛将会同时测评模型结果和推理过程的准确性与逻辑性,希望本次挑战能够激发音频推理领域新的模型创新和系统创新。所有参赛队伍均可以在 Interspeech 2026 主会提交系统报告或研究论文,欢迎大家报名参加,相聚悉尼!

赛事官网:https://audio-reasoning-challenge.github.io/

请注意报名截止时间是2026年1月15日,只有成功注册的队伍才可以后续在 leaderboard 开启后提交。

图片

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册