图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Stability AI 发布 Stable Audio 3.0:引入语义 - 声学自编码架构,支持 6 分钟长音频生成与端侧 LoRA 微调

图片

Stability AI 推出基于全新架构的 Stable Audio 3.0 系列音频大模型,包含三个开放权重版本。该系列利用新型自编码器实现了从短样本到 6 分钟长音频的生成跨越,并首次在音频领域提供官方 LoRA 微调支持,支持在移动端及消费级硬件上进行端侧创作

圣米格尔的黄昏。一首古典西班牙吉他曲,仿佛由玛丽亚奇乐队演奏。非常适合阳光明媚的天气。

一首古怪另类的流行器乐,带有和朋友一起开车长途旅行的氛围,抓耳的合成贝斯极具感染力,紧密调校的吉他鼓增添了一丝雅致,梦幻多彩的合成器带来模糊的老式 VHS 胶片氛围。同时,轻柔的吉他弹奏出独立摇滚风格的主题。

试用链接:

https://stability.ai/stable-audio

Hugging Face: 

https://huggingface.co/collections/stabilityai/stable-audio-3

( @stability.ai)

2、字节跳动发布 Lance:3B 规模原生统一多模态模型,支持视频理解与生成全链路

图片

图片

字节跳动智能创作团队推出原生统一多模态模型 Lance,参数量为 3B。该模型在不超过 128 块 GPU 的有限预算下从头训练(from scratch),通过分阶段多任务配方实现了图像与视频的理解、生成及指令驱动型编辑能力的统一,在多个多模态基准测试中位居同类模型首位

参考链接:

https://lance-project.github.io/

https://github.com/bytedance/Lance

https://huggingface.co/bytedance-research/Lance

( @lance-project)

3、Mega-ASR:首个全场景工业级 ASR-in-the-wild 模型,极端环境识别性能提升 10% - 30%

图片

南洋理工大学(NTU)、新加坡国立大学(NUS)与上海人工智能实验室(Shanghai AI Lab)联合训练并开源了鲁棒语音识别模型 Mega-ASR。该模型针对真实世界中的极端声学环境,引入了监督微调(SFT)与强化学习(RL)联合优化策略,在回声、远场、丢包等复合场景下,相比现有主流模型(如 Whisper、Gemini-3-Pro)实现最高近 30% 的性能提升。

Voices-in-the-wild-2M 数据集:基于频谱操作流水线构建了包含 11,000 小时(约 260 万条)样本的训练集,覆盖 7 种单一声学条件与 54 种复合场景。引入智能体校验数据的物理合理性,并硬性过滤了词错误率(WER)高于 70% 的样本以保证训练稳定性。

声学到语义渐进式微调(A2S-SFT):在基础训练阶段,模型强制在强声学扰动(如遮挡、回声与混响、电子失真等)环境下进行语义提取与恢复训练,输出基座模型 Mega-ASR-Base。

双粒度 WER 门控策略优化(DG-WGPO):在 SFT 模型基础上引入强化学习对齐阶段,将 token 级细化奖励与句子级重建奖励相融合。该机制确保即使在基线 WER 超过 30% 的极端恶劣条件下,模型依然能获取有效的梯度学习信号。

多维度复合场景纠错能力:在包含嘈杂背景音(Babble Noise)、餐厅噪音、空输出恢复及长文本语义恢复的测试基准中,Mega-ASR 的实际 WER 显著低于 Qwen3-ASR、Seed-ASR 与 Whisper。

Arxiv: 

https://arxiv.org/abs/2605.19833

Project page: 

https://xzf-thu.github.io/Mega-ASR

(@ 社区投稿)

02 有亮点的产品

1、Pettichat 发布首款双向宠语翻译器:接入通义千问 LLM,基于 500 万声纹数据实现 1.2 秒实时翻译

图片

图片

初创科技公司 Pettichat 推出其首款双向宠语翻译器硬件,预售价 799 元。该设备通过接入阿里云通义千问大模型及自研宠物翻译模型,实现了猫狗叫声的实时双向翻译。此举标志着大语言模型(LLM)的应用边界首次正式延伸至跨物种实时语音交互领域

(@ 青来 AnW、@ 科技狐)

2、Google 发布 Gmail Live:引入 Gemini 驱动的语音对话式检索,支持多轮自然语言交互与上下文推理

图片

谷歌 在 Google I/O 2026 开发者大会上宣布推出对话式 AI 功能「Gmail Live」。该功能由 Gemini 模型驱动,允许用户通过自然语言语音交互直接检索、调取和管理收件箱深层信息。此更新旨在提供具备上下文感知与实时中断唤醒能力的多轮对话检索体验,替代传统的关键字搜索框

( @TechCrunch)

03 有态度的观点

1、Take-Two CEO:AI 可以加速开发,但做不出下一个 GTA

图片

R 星母公司 Take-Two CEO Strauss Zelnick 在 David Senra 的播客中表示,他支持在游戏开发中使用 AI,认为 AI 可以提升部分制作环节的效率,但不认为它可以从零创造出下一个《GTA》

Zelnick 认为,AI 本质上建立在大型数据集、算力和大语言模型之上,而数据天然面向过去。他指出,AI 可以制作出类似 GTA 的产品,但「模仿品本来就卖不好」;AI 目前擅长资产生成,但爆款游戏的诞生不等于素材生产。AI 可以做出另一个 GTA 式产品,但模仿品卖不动。

这番话回应了投资者对 AI 降低游戏开发门槛、冲击大型发行商的担忧。Zelnick 的判断是,游戏工具早已普及,稀缺的不是工具,而是原创性、意外感和文化命中能力

他此前曾指出,Take-Two 允许员工使用 Claude、Gemini 等 AI 工具,但效率提升也会反过来抬高内容规模和质量目标。

( @APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、【活动预告|深圳科创学院 北京线下交流】

🥳各位好,深圳科创学院导师下周将走进北京高校,开展线下专场交流活动。

现场将系统讲解学院科创孵化体系、AI 硬件创业扶持资源,同时详细介绍 2026 夏季科创营,现场开放专属内推资格!

✅适合参加人员:

1⃣ 有创业想法,想对接官方孵化资源、导师团队、供应链资源;

2⃣ 有项目、完整 BP,希望加速打磨、对接落地与投融资资源;

3⃣ 计划报名夏季科创营,想要直通内推、优先筛选录取;

图片

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流