开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、豆包·语音播客模型:基于流式模型构建,支持时事热点话题跟随

5 月 20 日,火山引擎正式推出豆包·语音播客模型,作为豆包大模型语音语言技术的重大场景化升级成果,该模型基于流式模型构建,能够实现从文本创作到双人对话式播客的秒级转化。同时无需复杂剪辑,热点内容就能转化为播客。

2、SEELE LMM,首个端到端的多模态游戏大模型

全灵 SEELE 推出 SEELE LMM ——端到端的多模态游戏模型。

SEELE LMM 只需要一句话指令,即可生成、编辑 3D 互动游戏内容,通过开放式 Prompt 实现动态 Remix 体验。

去年底,全灵 SEELE 宣布完成了千万美元 Pre-A 轮融资。本轮融资由百度战投领投,投资方包括美图投资、富坤创投等机构,老股东 Webtime Information S&T 持续加持。

公司创始人兼 CEO 王诗沐是前网易云音乐创始人,曾担任腾讯 NBase 创新业务总经理、腾讯新闻负责人。

体验链接:https://www.seeles.ai/(@ 全灵、SEELE)

3、字节跳动 Seed 团队开源统一多模态模型 BAGEL ,性能超越顶级开源视觉 - 语言模型

BAGEL 是一款由字节跳动 Seed 团队开源的统一多模态模型,7B 活跃参数,通过大规模交错多模态数据(语言、图像、视频、网络)训练,性能超越顶级开源视觉 - 语言模型(如 Qwen2.5-VL、InternVL-2.5),并在图像生成质量上媲美专业生成模型(如 SD3、FLUX.1)。

核心功能:

4、Google 最新发布多模态模型 Gemma 3n,支持音视频输入,可在仅 2GB 内存的设备上运行

Google 最新发布的 Gemma 3n 是一款高效、轻量、多模态的 AI 模型,专为移动设备优化,兼具强大性能和低资源需求。

模型特点:

技术与合作:

Gemma 3n 目前处于早期预览阶段,可通过 Google AI Studio 进行测试,同时提供便捷的微调功能,支持在 Google Colab 等平台上操作。( @ shao__meng\@X)

5、Gemini 2.5 引入新功能:原生音频输出功能&Live API 改进

Gemini Live API 推出了音频视频输入和原生音频输出对话的预览版,因此您可以直接构建对话体验,使用更自然、更具表现力的 Gemini。

它还允许用户控制其语气、口音和说话风格。例如,用户可以让模型在讲故事时使用生动的声音。它还支持使用工具,以便能够代表用户进行搜索。

现在,可以供用户尝试的一系列早期功能包括:

谷歌还将为 2.5 Pro 和 2.5 Flash 版本发布全新的 TTS 功能预览版。这些功能首次支持多人对话,能够通过原生音频输出实现双声道文本转语音。

与 Native Audio 对话一样,文本转语音功能富有表现力,能够捕捉到非常细微的差别,例如低语。它支持超过 24 种语言,并可在多种语言之间无缝切换。( @InfoQ)

02 有亮点的产品

1、Google Meet:支持实时双语翻译配音,并保留对话双方的音色,超低延迟、无字幕

视频会议 Google Meet,支持实时的双语翻译配音,超低延迟、无字幕,并保留对话双方的音色、语调,目前支持英语 - 西班牙语支持已上线,后续将添加更多语言。(@GoogleWorkspace\@X、@ 量子位)

2、Google 多模态 AI 助手「Project Astra」:作为 Gemini 应用的新功能正式推出

Google 的 Project Astra 升级了语音输出,使其通过原生音频输出听起来更自然;同时改进了记忆功能并增加了计算机控制。

「我们的终极愿景是将 Gemini 应用打造成一个通用的 AI 助手,它可以为我们执行日常任务,处理日常的日常管理,并提供令人愉悦的新建议,从而提高我们的工作效率,丰富我们的生活。」

现在 Project Astra 能够实时观察周围环境,例如搜索资料指导小哥修自行车,零件不够还能自动电话询问周边商店有没有货。(@ 机器之心、@ 量子位)

3、Google Beam:AI 驱动的 3D 视频通信平台,能够将 2D 视频流转化为逼真的 3D 体验

Google Beam 是一款 AI 驱动的 3D 视频通信平台,由原裸眼 3D 视频通话 Project Starline 升级而来。

现在的 Google Beam 平台利用 AI 赋能新一代设备,帮助人们无论身在何处都能建立有意义的联系。

Google Beam 借助最先进的视频模型,通过一个由六个摄像头组成的阵列并结合 AI 技术,将标准的 2D 视频流转化为逼真的 3D 体验,让用户以更自然、更直观的方式进行连接。

据介绍,该产品拥有「近乎完美」的毫米级头部追踪和 60fps 的视频流传输。与 Google Meet 配合使用时,Beam 提供 AI 驱动的实时语音翻译功能,可保留原始说话者的声音、语调和表情。(@ 机器之心)

4、谷歌搜索引入 AI Mode,预计今夏上线 Search Live 功能

谷歌搜索 AI 模式是对搜索的彻底重新构想,可以提出更长、更复杂的查询。用户已经提出 2-3 倍长的问题。今天,它作为搜索中的新标签,为美国市场的所有用户提供。

AI 模式将能够为用户提供更个性化的建议,包括学习用户在餐厅偏好户外座位的喜好、查看收件箱以获取用户访问特定地点的具体时间和日期,用户能够随时管理这些功能集成。

谷歌还演示了谷歌搜索 AI 模式的多个应用示例,包括生成图表;以及输入「帮我找两张周六比赛的票」,谷歌搜索就会去很多票务网站查找票务,然后呈现给用户多个选项,方便用户购买想要的票。

Search Live 功能也将在今年夏天登陆谷歌搜索的 AI 模式。Search Live 实时互动搜索,用户只需在 AI Mode 下轻触「Live」图标,对着手机摄像头提问,AI 就能看懂画面内容并给出实时的语音解答和相关资源链接。(@ 乾智 AI、@ 量子位)

03 有态度的观点

1、富士康董事长:AI 难以替代人类工人

日前,富士康董事长刘扬伟在 2025 COMPUTEX 大会上发表个人演讲,谈及 AI 制造工厂时,其对「AI 是否取代人类工人」这一话题进行了讨论。

刘扬伟在演讲中指出,虽然 AI 在近几次的迭代中可以达到 80% 的准确率,但此后其发展进展会显著放缓。

对于 AI 与人类的在「富士康构思的下一代工厂」中的运用比例,刘扬伟则预测将会是:AI 帮助完成 80% 的工作,剩下的 20% 则需要熟练的工人、技术人员来进行完成。

刘扬伟进一步分析,AI 虽然提升了工作效率,但对于精准且复杂的任务,人类的专业知识仍然是必不可少的一部分。 另外,本次演讲中刘扬伟还公布了富士康在未来的「3+3+3=∞」的战略(即智能制造、智能电动汽车、智能城市,并由与英伟达合作开发的最新 AI 工厂提供支持)。其中刘扬伟提到,目前就谈 AI 的计算需求顶峰,似乎还太早,「现在只是一个开始」。(@ APPSO)

更多 Voice Agent 学习笔记:

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流