图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、上海人工智能实验室发布 InternVL-U 统一多模态模型 ,4B 参数实现理解、推理、生成、编辑一体化

图片

近日,上海人工智能实验室联合香港中文大学、清华大学等多所顶尖高校,正式开源多模态一体化模型 InternVL-U

这款仅 4B 参数的轻量化模型,通过架构创新与数据范式革新,突破了现有统一多模态模型「训练成本高昂、能力不均衡」的两大瓶颈,重新定义了统一多模态模型的 "效率 - 性能" 边界。

InternVL-U 以 "统一语境建模 + 模态专用模块化 + 解耦视觉表征" 三大核心设计,打破了 "大参数才能实现强能力" 的固有认知,在文本渲染、科学推理、空间建模等复杂场景中实现对 14B 级模型的超越,为多模态技术落地提供了高效、灵活的全新选择。

它首次在轻量化模型中实现了「理解—推理—生成—编辑」的端到端闭环,无需切换模型即可完成复杂任务链。例如,它能够解析专业指令如「生成 2-溴 -4-甲基苯甲酸结构」(理解能力),调取化学知识推理分子结构中官能团的位置与连接方式(推理能力),精准绘制符合化学规范的分子结构示意图(生成能力),并支持修改取代基位置或调整分子结构的展示角度(编辑能力)。

无论是科研教育中的专业可视化、智能办公中的文档生成,还是大众创意中的趣味内容创作,InternVL-U 都能以优异的性能满足需求。

GitHub 链接:

https://github.com/OpenGVLab/InternVL-U

( @OpenMMLab)

2、UniPat AI 开源 SWE-Vision:五百行代码打造 SOTA 视觉智能体

多模态大模型在代码能力上进步惊人,但在基础视觉任务上却频繁失误。据此问题,UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision,让模型可以编写并执行 Python 代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中,SWE-Vision 均达到了当前最优水平。

图片

它之所以有效,恰恰在于其极简

这与很多「为了某类视觉任务单独发明一套工具接口」的方法不同。这些方法往往在某些窄任务上能提升,但泛化性不足;而 SWE-Vision 的目标,是提供一个尽可能通用的视觉增强框架,让模型自己决定何时调用代码、如何组织分析步骤。

SWE-Vision 的结果也给我们揭示了另一种可能:

对于视觉来说,测试时扩展(test-time scaling,TTS)不一定只能靠「多想几段文字」,也可以靠「多写几行代码」来看得更精细。

GitHub 链接:

https://github.com/UniPat-AI/SWE-Vision

(@ 机器之心)

3、谷歌开源 WAXAL :发布非洲多语种语音数据集

图片

针对撒哈拉以南非洲地区语音数据匮乏的瓶颈,WAXAL 数据集正式开源。该项目历时三年开发,旨在为非洲多语种语音技术的工业级应用提供底层支持。

 数据规模与技术指标

其采用「图片描述」任务获取真实语境下的自然语言样本,平衡了口语的多样性与语境的真实性。同时由马凯雷雷大学、加纳大学、数字卢旺达(Digital Umuganda)等非洲本土机构主导数据采集与主权维护。以制作文本转语音技术所需的高质量音频。

Huggingface 链接:

https://huggingface.co/datasets/google/WaxalNLP

( @blog.google)

02 有亮点的产品

1、Junior 发布同名组织级原生 AI 员工

Junior 团队发布 Junior。该系统脱离了传统的「指令 - 响应」式助手模型,被定义为具备独立身份、持久化组织记忆与自主提议权的「AI 员工」。

目前,Junior 已在内部承担了 80% 的内部沟通50% 的项目发起以及 80% 的代码编写工作。

其核心技术架构主要有:

持久化组织记忆(Persistent Organizational Memory)

原生职场身份(Real Workplace Identity)

自主循环与行为层(Proactive Autonomy)

(@hirejuniorso\@X)

2、ElevenLabs 发起「百万声音计划」:为失语群体免费提供 AI 声音修复

图片

在 2026 年 SXSW 大会上,AI 音频公司 ElevenLabs 联合已故演员埃里克·丹恩(Eric Dane)的遗孀丽贝卡·盖哈特·丹恩(Rebecca Gayheart Dane)宣布启动 「1 Million Voices」 公益倡议。该计划旨在全球范围内寻找 100 万名 因癌症或其他医疗问题导致永久性失声的人士,为其免费提供 AI 声音修复技术。

该技术源起于知名演员埃里克·丹恩(曾出演《亢奋》、《实习医生格蕾》)在因肌萎缩侧索硬化症(ALS)去世前,他曾与 ElevenLabs 合作克隆并修复了自己的声音。其遗孀丽贝卡指出,声音受损严重影响了患者的自我认同感。通过 AI 技术,患者不仅能重获表达能力,也能为家人留下珍贵的音频记忆。她希望此举能激励更多 AI 公司利用技术能力造福社会,而非从事违法违规行为。

在 2026 年 SXSW 关于深度伪造、虚假信息及版权争议的讨论背景下,该项目被视为 AI 技术「向善」应用的典型案例。引起了社会公众的广泛关注。

( @Timothy Beck Werth\@Mashable)

3、Google Maps 技术更新:Gemini 模型集成与导航架构重构

Google 宣布对其地图服务进行十年以来最大规模的底层更新,核心在于通过 Gemini 多模态模型处理高维空间数据,实现从「静态索引查询」向「主动语义理解」的任务转型。

Ask Maps:基于 RAG 与社区数据的对话式交互

Immersive Navigation:空间感知与 3D 渲染升级

动态路由与实时反馈

( @blog.google)

03 有态度的观点

1、王兴:对美团来说,物理世界数字化将是 AI 非常重要的底座

美团 3 月 13 日召开 2026 年管理层沟通会,美团 CEO 王兴分享了自己对于 AI 的发展看法。

「老专家的经验未必奏效,年轻人各种奇奇怪怪的想法将会持续迸发,面对 AI 浪潮,我们唯一能做的就是积极拥抱它。」王兴表示,「AI Agent 对我的冲击比 ChatGPT 冲击更大,我们经历过从互联网到移动互联网的变化,可以肯定的是,AI 带来的变化会比整个互联网带来的变化要大得多,它注定会创造巨大生产力,也一定会对组织、对工作模式带来很大的变化。」

王兴表示,对于美团来说,物理世界的数字化将是 AI 非常重要的底座,「虽然大模型越来越聪明。但我们可以想象,就算爱因斯坦当秘书,让他订一个餐厅,他依然不知道那个餐厅有没有座位。这不是智力问题,而是信息问题。」

公开资料显示,美团已经推出多款 AI 应用及自研大模型。2025 年,美团宣布将加大投入建设真实信息基建。基于全国本地生活信息基建,今年春节期间美团也上线了 AI 搜索产品「问小团」。

(@ 新京报)

04 社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、从 OPC 爆火,看 AI 时代开发团队如何快速跑通产品

🚀 AI 实战 · 开发者未来形态

OceanBase 携手商汤大装置、蚂蚁开源、中关村 AI 北纬社区与 AGI Bar 共同发起,战略伙伴中关村科学城公司、中关村创业大街及氪星创服鼎力支持。

与最前沿的技术团队,一起走进 真正的 AI 实战现场,洞察下一代开发者生态。

📍 时间:2026/3/28(周六)

🕐 13:00–18:00 | After Party 18:30–21:00( by AGI Bar)

🏠 地点:北京市海淀区海淀街道中关村创业大街 2 号楼 A 入口 3 层

🎫报名方式:扫描图中二维码

图片

2、Physical AI 系列活动硅谷站!探讨和上手全模态与硬件智能丨 Meetup+Workshop,3 月 19 日

湾区硅谷的开发者和创业者们,3 月 19 日见!

GTC 期间,来一场动脑又动手的 Physical AI 全天候嘉年华!同一场地,两场硬核活动无缝衔接:

🌅 上午 09:30|Meetup:对话真实世界

Agora | RiseLink | MiniMax | HumanTouch | EverMind | Resonance Ventures 等大咖齐聚,拆解全模态与端侧智能的机会与未来。

图片

🛠 下午 13:30|Workshop:手搓语音 AI 硬件

基于 TEN 框架,实操接通语音 AI Agent。重点来了👉现场备有 40 套 Agora R1 开发板,代码跑通直接把硬件带回家!

图片

上下午活动需分开独立报名,名额有限,拼手速:

上午 Meetup 报名:

https://luma.com/8we6qyma

下午 Workshop 报名:

https://luma.com/onc0xr9y

地点:Sunnyvale(审核后发具体定位)

3、当 GDPS 遇见 Voice Agent--MagicHub Meetup 线下交流会。2026 上海 GDPS 同期

晴数智慧 2026 线下活动第二站:上海站。将与 GDPS 同期举办,在黄浦江畔汇聚全球开发者和 AI 创新者。

立即报名,与行业精英并肩交流,共同定义 Data For Voice Agent 的未来!

📍 时间:2026/3/28(周六)|CST 18:00-21:00

🏠 地点:上海西岸美高梅酒店

🎫报名方式:扫描图中二维码

💡:30-40 人,名额有限,先到先得

图片

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流