开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、谷歌推出 LightLabAI 全新技术精确操控单图光影

2025年5月17日，谷歌联合特拉维夫大学、瑞克曼大学与希伯来大学的研究团队正式推出 LightLab，这是一种基于扩散模型的人工智能图像编辑方法，可以在单张图像中实现物理可信的、精细化的光照操控。

LightLab 依托扩散模型，通过成对图像隐式建模光照变化。这些成对数据包括两种来源：600 对真实图像与大规模的合成图像。真实图像由移动设备固定拍摄完成，通过切换光源记录同一场景「有光 - 无光」的对照，利用自动曝光和后期校准确保曝光一致性。而合成图像则基于 20 个艺术家设计的室内 3D 场景生成，使用 Blender 进行物理渲染，随机采样相机视角并程序化调整光源参数（如强度、色温、面积与锥角）。这一合成数据管线有效增强了模型的泛化能力。

研究团队为局部空间信号和全局控制信号使用了不同的条件方案。空间条件包括输入图像、输入图像的深度图，以及两个空间分割掩码，分别用于目标光源的强度变化和颜色。

全局控制（环境光强度和色调映射策略）被投影到文本嵌入维度，并通过交叉注意力机制插入。

论文地址：

https://arxiv.org/abs/2505.09608

项目主页：

https://nadmag.github.io/LightLab/

HuggingFace：

https://huggingface.co/papers/2505.09608（@AI 之星网、@ 机器之心）

2、复旦携手腾讯推出说话人视频生成工具 DICE-Talk

复旦大学与腾讯人工智能实验室近日联合发布了 DICE-Talk 动态情感视频生成系统，该系统通过多模态情感驱动框架实现了语音、文本与面部表情的精准同步，标志着生成式 AI 在情感表达维度取得重要突破。

技术团队采用双通道神经网络架构，分别处理语音情感特征和微表情生成，配合 3D 人脸建模技术实现每秒 60 帧的细腻表情变化。该系统在普通话、英语等多语言场景下均可生成自然的面部肌肉运动，尤其在表达喜悦、惊讶等复合情感时达到行业领先水平。

核心创新在于身份 - 情感分离处理机制，确保情感变化时人物外观一致；
能够解构身份信息并协同情感生成，支持多种情感状态的自然过渡；
用户只需上传图像和音频即可生成对应情感的动态视频，操作简单且直观。

腾讯云计划在今年第四季度开放 API 接口，首批将支持短视频制作、在线客服等商业场景。

GitHub 链接：

https://github.com/toto222/DICE-Tal（@AIbase 基地、@AIBUPT）

3、Ollama 新引擎支持多模态推理模型，未来将支持语音、图像和视频生成

Ollama 的新引擎开始支持多模态模型，首先支持模型包括：Meta Llama 4、Google Gemma 3、Qwen 2.5 VL、Mistral Small 3.1 等视觉模型。

据悉，目前 Ollama 依赖于 ggml-org/llama.cpp 项目来支持模型，并专注于易用性和模型的可移植性。

随着更多多模态模型由主要研究实验室发布，按照 Ollama 的方式支持这些模型的任务变得越来越具有挑战性。

Ollama 因此着手支持一个新的引擎，使多模态模型成为一等公民，并促使 Ollama 的合作伙伴通过 GGML 张量库更直接地为社区做出贡献。

据 Ollama 介绍，这项工作旨在提高 Ollama 本地推理的可靠性和准确性，并为支持未来具有更多功能的多模态奠定基础，例如语音、图像生成、视频生成、更长的上下文长度、以及对模型的改进工具支持。(@Ollama)

4、开源语音模型 OuteTTS-1.0-0.6B：基于 Qwen-3 0.6B 训练，支持快速音频生成

（图片来源：HuggingFace）

开源语音合成模型 OuteTTS 发布了最新的版本 OuteTTS-1.0-0.6B。

基于 Qwen-3 0.6B
Apache 2.0（免费用于商业和个人用途）
支持 14 种以上语言
添加了批量推理，支持长输入的快速音频生成（约 0.1–0.02 RTF）（@OuteAI\@X）

02 有亮点的产品

1、ListenHub 正式发布：专注短播客内容的 AI 播客 Agent

ListenHub 是一个专注短播客内容的 AI 播客 Agent。通过 ListenHub，用户无需剪辑，即可制作和消费短播客内容。目前 ListenHub 支持三个客户端：Web、App 和浏览器插件。

ListenHub 现在有四种创作模式：

直接输入感兴趣的话题，也可以指定话题里必须包含的内容，比如东京的周边游，可以要求必须包含伊豆。这个模式下 AI 会调动 Deep Search 进行规划和搜索，有【快速】和【深度】两种选择；
粘贴链接，输入一篇文章的链接进来，转换为播客；
上传文件，可以上传 PDF、DOCX、TXT 等文件，转换为播客。目前只支持 10M 以内的文件；
长文本，用法很灵活，可以粘贴一篇长文过来，也可以粘贴自己的笔记或编写的播客大纲，可以输入背景信息和自己的观点，让 AI 根据观点来制作内容。

Web:https://listenhub.ai/

iOS 下载地址：

https://apps.apple.com/us/app/listenhub/id6743071290

浏览器插件：

https://chromewebstore.google.com/detail/listenhub-instantly-turn/hkdgfhffhkllpjabeldigdlcmkhhgjel（@ 橘子汽水铺）

2、ElevenLabs SB-1：Infinite Soundboard 发布，支持文本转音效和无限环境噪音生成

ElevenLabs 发布基于 AI 的可定制音效控制面板 SB-1Infinite Soundboard，支持文本驱动的音效生成、多场景应用及创作者友好功能，革新音效制作方式。这是一个集文本转音效生成器、声板、鼓机和无限环境噪音生成器于一体的工具。用户可以描述想要的音效，SB1 会使用其文本转音效模型生成声音。它提供预设音效、鼓机，用户也可以创建自己的声板。11 Labs 还与 Spotify 合作提供有声书旁白服务。

文本驱动音效生成：输入文字即可生成高质量逼真音效，突破传统音效库限制；
多场景赋能：适用于直播、影视、表演等，提升沉浸感与创作效率；
社区友好：免费账户解锁全部功能，降低技术门槛，广受创作者欢迎。（@AIbase 基地、@ 数图笔记）

3、谷歌首款 AR 眼镜，操作系统采用 Android XR，最快今年发售

钛媒体 App 5 月 19 日消息，从接近谷歌处人士独家获悉，谷歌首款 AR 眼镜将在本周的 I/O 大会上发布，类似于此前和三星在 MR 上的合作，此次也是和一家头部 AR 厂商合作研发，采用 BirdBath 方案，运行 AndroidXR 系统，预计最快将于今年下半年正式上市开售。

本月，Google Android XR 负责人 Shahram Izadi 和同事在 TED 大会上展示了由 Gemini AI 驱动的 AR 眼镜与头显。AR 眼镜配备了摄像头、麦克风、扬声器和高清全彩微显示屏。通过 AR 眼镜实现实时翻译、场景识别和导航功能，头显设备则带来沉浸式 3D 交互体验。AI 不仅能理解环境、回答问题，还能作为游戏指导助手，几乎实现了十年前人们对 Google Glass 的所有想象。

RTE 开发者社区翻译了 TED 大会上 Google AR 眼镜与头显的完整视频（16 分钟），欢迎点击收看！（@ 钛媒体、@TED）

03 有态度的观点

1、蚂蚁集团 CTO：大模型幻觉源自缺乏数据

日前，在 OceanBase 开发者大会上，蚂蚁集团 CTO 何征宇表示：没有数据就没有 AI 的发展，数据的边界决定了大模型的能力上限，所有的数据公司都将成为 AI 公司。

其表示，目前大模型幻觉的源头是缺乏数据，廉价的互联网数据即将用尽，导致数据的获取成本增加。

何征宇还强调，除上述问题外，AI 还存在严谨的行业数据稀缺且流动困难，多模态数据处理难、数据的质量评估难等挑战。未来企业成功与否，将主要取决于如何产生数据、应用数据。

何征宇称，蚂蚁集团将支持 OceanBase 在金融、医疗、生活等蚂蚁 AI 的核心场景的突破，同时继续支持 OceanBase 开源开放，推进 AGI 梦想的实现。

此前据报道，去年年底，马云在蚂蚁集团 20 周年活动上着重提了 AI，他认为未来 20 年的 AI 时代能带来的改变，会超出所有人的想象。随后，蚂蚁集团 AI 相关业务线，进行了一系列的「变阵」。

上述「变阵」包含成立了专门的 AGI（通用人工智能）部门（由何征宇挂帅）；加大了在具身智能和 AI 眼镜等新兴领域的投入；投资方向已开始聚焦医疗健康和全球化扩展。(@APPSO)

更多 Voice Agent 学习笔记：

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么？丨 Voice Agent 学习笔记

a16z 合伙人：语音交互将成为 AI 应用公司最强大的突破口之一，巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密：技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代，每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司，举办了一场全球黑客松，冠军作品你可能已经看过

多模态 AI 怎么玩？这里有 18 个脑洞

AI 重塑宗教体验，语音 Agent 能否成为突破点？

对话 TalktoApps 创始人：Voice AI 提高了我五倍的生产力，语音输入是人机交互的未来

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

↙↙↙阅读原文可查看相关链接，并与作者交流