开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、蚂蚁集团开源 Ming-Omni:支持统一感知与生成的多模态模型,在端到端语音理解和指令执行方面表现优异,超越了 Qwen2.5-Omni 和 Kimi-Audio

Ming-Omni 是由蚂蚁集团与 inclusionAI 共同开发的首个开源多模态模型,旨在与 GPT-4o 竞争。该模型支持多种输入形式,包括文本、语音、图片和视频,同时也可以生成文本、语音和图片输出。这一创新的开源项目为开发者提供了灵活的应用选择,具有广泛的潜力和应用场景。

Ming-lite-omni 是一个统一的多模态模型,是 Ming-omni 的轻量版,源自 Ling-lite,拥有 28 亿激活参数。该模型能够处理图像、文本、音频和视频,同时在语音和图像生成方面表现出强大的能力。Ming-lite-omni 采用专用编码器从不同模态中提取 token,随后由 Ling 处理,Ling 是一种配备了新提出的模态专用路由器的 MoE 架构。该设计使单一模型能够在统一框架内高效处理和融合多模态输入,从而支持多样化任务,无需单独模型、任务特定微调或结构重设计。

值得注意的是,Ming-lite-omni 超越了传统多模态模型,支持音频和图像生成。这通过集成先进的音频解码器实现自然语音生成,以及 Ming-Lite-Uni 实现高质量图像生成,使模型能够进行上下文感知聊天、文本转语音转换和多功能图像编辑。

Ming-lite-omni 在跨模态性能方面表现卓越,已在图像感知、视听交互和图像生成任务中得到验证。具体而言,在图像感知任务中,Ming-lite-omni 仅激活 28 亿参数,性能即可与 Qwen2.5-VL-7B 相媲美。在端到端语音理解和指令执行方面表现优异,超越了 Qwen2.5-Omni 和 Kimi-Audio。它还支持原生分辨率的图像生成、编辑和风格迁移,GenEval 得分达到 0.64,优于 SDXL 等主流模型。在 FID 指标上,Ming-lite-omni 达到 4.85,刷新了现有方法的最新水平。

技术报告: https://arxiv.org/pdf/2506.09344

HuggingFace: https://huggingface.co/inclusionAI/Ming-Lite-Omni

GitHub: https://github.com/inclusionAI/Ming(@ Tu7uruu\@X、@ 果比 AI)

2、我国首例侵入式脑机接口临床试验成功,能将口头思维输出成为文字信息,并生成视觉感知内容

据央视财经消息,我国成功开展首例侵入式脑机接口临床试验,同时该成果标志着我国在侵入式脑机接口技术上成为继美国之后,全球第二个进入临床试验阶段的国家。

信息显示,本次试验由中国科学院脑科学与智能技术卓越创新中心,联合复旦大学附属华山医院,与相关企业合作完成;受试者为我国首例侵入式脑机接口临床试验的受试者,其曾因高压电事故截掉四肢。

其成功标志着,除了马斯克的 Neuralink,我国成为全球第二个进入侵入式脑机接口技术临床试验阶段的国家。而且所植入的神经电极目前全球尺寸最小、柔性最强——植入体仅硬币大小(为 Neuralink 产品 1/2),超柔性电极约为头发丝的 1/100(超过 Neuralink 百倍)。

报道表示,自今年 3 月植入手术以来,这位国内首位侵入式脑机接口受试者仅用 2—3 周的时间,就实现了在手机电脑上操控光标完成下象棋、玩赛车等功能。

据悉,下一步将利用 3—6 个月的时间尝试对机械臂、轮椅等智能设备进行意念控制。

此前,美国企业家马斯克旗下的 Neuralink 于 2019 年,宣布成功让一只猴子通过大脑来控制电脑,随后于 2021 年展示了一段「猴子通过自主意念熟练玩电子乒乓球游戏」的视频。

据了解,Neuralink 目前正在开发一项能够帮助患有运动、语言、视力障碍的人恢复自主性的技术,该技术能够令他们使用意念控制电脑和机械臂,将口头思维输出成为文字信息,并生成视觉感知内容。

相关链接:https://mp.weixin.qq.com/s/XZq9Ef4WLEvtlP3vVylM8Q(@ APPSO)

02 有亮点的产品

1、全球知名玩具制造商美泰与 OpenAI 达成合作,共同开发搭载人工智能技术的智能玩具

近日,OpenAI 官方宣布,已经和全球知名玩具制造商美泰(Mattel)达成了一项战略合作。双方将共同开发搭载人工智能技术的智能玩具,颠覆传统游戏方式。

根据双方达成的协议,两家公司将把各自公司的专业知识进行结合,为全球用户设计、开发和推出突破性的新体验。通过使用 OpenAI 的人工智能技术,美泰将把人工智能的能力带到适合年龄的使用体验中。

据介绍,鉴于玩具面向青少年群体,美泰与 OpenAI 承诺将严格保障儿童安全与隐私。美泰始终保有产品创意与生产的主导权,双方自去年末便启动合作洽谈。两家公司均承诺在运用 OpenAI 技术时,坚守儿童友好与安全底线。

相关链接:https://techcrunch.com/2025/06/12/openai-and-barbie-maker-mattel-team-up-to-bring-generative-ai-to-toy-making-and-content-creation/(@ 多知、@APPSO

2、Who is Spy :AI Agent 谁是卧底游戏和狼人杀对抗赛

https://whoisspy.ai/是一个 AI Agent 对抗比赛平台,目前该平台支持了中文版和英文版的谁是卧底游戏和狼人杀游戏对抗赛。

每个玩家可以在 HuggingFace 上开发自己的 AI-Agent,然后在 https://whoisspy.ai/上传 Agent 的路径,并加入游戏匹配和战斗。

在谁是卧底的网站上选中刚刚创建的 Agent,然后点击「小试牛刀」,会进行不计分的比赛;在赛事页面点击加入战斗,会和在线的其他 Agent 进行匹配,游戏分数计入榜单成绩。

HuggingFace: https://huggingface.co/spaces/alimamaTech/werewolf_1

体验链接:https://whoisspy.ai/(@ alimamaTech、@HuggingFace

3、Meta 斥资 143 亿美元收购 Scale AI 49% 股份,聘请其 CEO 引领 AI 重组

Meta 已完成对 Scale AI 的 143 亿美元投资,并招募了该公司 CEO Alexandr Wang 加入 Meta 的 AI 团队,进一步加强其 AI 发展。

Meta 将投资 143 亿美元,获得 Scale 49% 的股份,但不具备投票权。

据彭博社和纽约时报消息,扎克伯格对 Meta 旗下的 AI 表现感到不满,正在组建一个名为「superintelligence」(超级智能)的专家团队,以实现 AGI(通用人工智能)。

Wang 将加入 Meta 的「超级智能」团队,专注于打造类人 AI(人工通用智能),并继续在 Scale 担任董事会成员。

扎克伯格认为 Meta 能够实现 AGI 并且在该领域超越其他科技公司,并且 Meta 将会在实现 AGI 的同时,将该技术融入到旗下的产品中,例如 Meta 聊天机器人和目前火热的 Ray-Ban Meta 智能眼镜。

另外,虽然 Scale 不专注于大型语言模型,它为 AI 巨头提供 AI 数据服务,并帮助企业和政府开发定制化 AI 应用。Scale AI 近年来业绩强劲,预计今年收入达到 20 亿美元。此次投资使 Meta 在 AI 发展上有望迎头赶上 Google 和 OpenAI。

根据最新的消息,原计划今年向 Scale 支付约 2 亿美元用于获取训练 Gemini 所需的人工数据,在 Meta 宣布入股 Scale AI 后,Google 已开始接洽其他数据服务商,原因出于对数据安全与竞争情报外泄的担忧。

而 OpenAI 首席财务官表示,在 Meta 交易后将继续与 Scale 合作。「我们不希望让整个生态系统冻结,因为收购是迟早要发生的事情。如果我们彼此排斥,我认为这反而会放慢创新的步伐。」

https://www.reuters.com/business/google-scale-ais-largest-customer-plans-split-after-meta-deal-sources-say-2025-06-13/ (@ APPSO)

4、科大讯飞为智能眼镜打造「三麦阵列」方案,支持识别语音输出是否是佩戴者发出,以及对话人的声音

在深圳的 2025 科大讯飞智能交互产品升级发布会上,科大讯飞围绕智能交互场景全面升级——AIUI、机器人超脑、虚拟人交互、讯飞星辰 4 大平台。

科大讯飞的 AIUI 人机交互平台以大模型为引擎,融合了情绪识别、创意生成、深度语义理解等类人多模态能力,成为产业智能化升级的核心支撑。科大讯飞基于儿童说话习惯,专门打造了童言识别和童语理解的儿童专属交互方案,帮助我们更好地理解儿童的表达。它不光对话起来更有趣、更友好,还能以引导的方式和儿童对话。

在趣味对话上,他们打造了很多经典 IP,只要一句话,就能激发海量的 IP 人设。

科大讯飞还开发了玩具开发套件,接入便捷,配置成本低,适用于多种场景,如带屏玩具、无屏玩具、桌面机器人等。

儿童语音交互之外,科大讯飞为智能眼镜打造了一个专属「三麦阵列」方案,针对不同场景,做了定向训练。三个麦克风的作用在于,识别语音输出是否是佩戴者发出,以及对话人的声音。

现场演示中,工作人员戴上眼镜随口发问,「减肥期间,可以吃荔枝吗」?小飞立即给出回复,「荔枝热量糖分超高,过量易导致热量超高」,还给出了减肥建议。

会上,团队还介绍了从多麦克风阵列降噪收音到线性双麦、四麦、六麦的多模态降噪技术,还有专为户外移动场景降噪设计的 3 麦降噪方案,让 AI 能在各种噪声的环境中「耳聪目明」。

另外还提到了,科大讯飞基于千万高质对话数据训练,专为情感交互场景打造的「交互大模型」,让设备读懂气氛,「高情商」回应喜怒哀乐。科大讯飞的「极速超拟人交互」技术更是将情感交互推向新高度,支持 1300 多种人设和情感语气自由切换。(@ 新智元)

5、首个 AI 原生浏览器 Dia 正式启动内测,支持多网页信息整合、视频总结、旅游计划制定等功能

The Browser Company 推出的以 AI 为核心的全新浏览器现已对 Arc 会员开放。

虽然 Dia 还处于测试阶段,仅适用于 Mac,但其核心目标非常明确:通过 AI 技术将日常的网络浏览体验提升到新的层次。

Dia 内置了一个类似 ChatGPT 的 AI 聊天工具。用户可以随时呼叫 AI 助手,进行网站内容查询、任务管理和浏览历史回顾,简化信息获取和操作流程。

通过分析用户的浏览习惯和网站访问记录,Dia 提供了高度个性化的功能。

例如,用户可以使用 Dia 进行饮食规划、学习帮助或约会建议等。浏览器的 URL 栏不仅能进行网页搜索,还能调用 AI 助手,增强互动性。

体验链接:https://www.diabrowser.com/

相关报道: https://techcrunch.com/2025/06/11/the-browser-company-launches-its-ai-first-browser-dia-in-beta/(@APPSO、@ 量子位)

03 有态度的观点

1、OpenAI Codex 团队:未来的 Agent 会趋向独立

日前,OpenAI 编程产品 Codex 的研究员 Hanson Wang 和产品负责人 Alexander Embiricos 在接受了红衫资本的采访,并分享了 Codex 的理念、对未来 AI 编程产品的设想。

采访中,Embiricos 提到,Codex 就像一个思想实验——它拥有自己的电脑,能够独立于用户的工作,用户需要做的就是将任务「委托」给 Codex。

Embiricos 也强调,Codex 就是 OpenAI Agentic 编程的品牌产品,而公司的愿景就是:未来有一个 Agent,它大部分时间在自己的电脑工作,但也能在任何用户需要的工具中起到协助作用。颇有一点「独立编程 Agent」的感觉。

对于 Codex 甚至是 Agent 的未来,Hanson 和 Embiricos 都强调,OpenAI 现在构建的方向,是无论用户从事任何职业,所有容易自动化的工作(通常是那些比较繁琐的工作),用户都不必亲自去做,而是可以委托出去,让 Agent 来进行。

至于那些有趣的、带挑战性的,则是用户自己来主导。同时 Embiricos 也表示,OpenAI 不会一来就用 AI 的方式改变用户习惯,而是让用户在做这件事上变得更简单,让一切做起来更容易。

有趣的是,Embiricos 还在采访中开玩笑式构建了对未来 Agent 使用场景的想象:作为一名创业者,团队只需要几个创始人和许多 Agent,就能像刷抖音、TikTok 一样,在一个 Agent 生成方案、想法的信息流里,挑选出自己想要的内容,来进行下一步。

采访原文:https://www.sequoiacap.com/podcast/training-data-openai-codex/

2、OpenAI CEO:2026 年将成为 AI 转折之年

日前,OpenAI CEO Sam Altman 接受了彭博社《The Circuit》节目的采访,其在节目中探讨了 OpenAI 的 Stargate(星际之门项目)、AI 未来的走向等内容。

对于 Stargate,Altman 认为自己收获了在供应链、算力规模等领域的认识。其表示,通过软银集团 CEO 孙正义,他自己真正意识到,计算领域是一个错综复杂的供应链,需要众多合作伙伴共同参与,以及巨额的资金投入。

有趣的是,主持人提及「微软为何无法满足 OpenAI 所有需求」这一话题。Altman 也很聪明地表示,微软的确给了公司极大的支持,但 Stargate 的体量超过了任何单一公司所能承受的范围。他还强调,微软未来仍会为 OpenAI 提供海量算力,公司对此也很满意。

而对于 AI 的宏伟愿景,Altman 始终表示「AI 是科技发展史上的新篇章」。他对于 AI 最兴奋的点,则是 AI 在科学领域的应用,他认为那是「革命性的」,尽管人类目前还尚未完全达到 AI 科学的阶段。

结合 Altman 本次采访和他在 6 月 11 日发布的《The Gentle Singularity(温和的奇点)》,他对 AI 的未来有以下预测:

2025 年我们见「真正进行认知工作的 Agent」,但能完成的工作主要还是我们已经知道如何完成的工作;

2026 年我们能见到「产生原创见解的系统」,同时这一年也会成为 AI 助力实现真正全新科学突破的一年;

2027 年或许会出现能在现实世界中执行任务的机器人;

到了 2030 年,一切都会变得极其丰富,届时我们能在理论上实现一切。(前提是资源充足,良好治理)

采访完整内容指路:https://www.bloomberg.com/news/articles/2025-06-12/video-sam-altman-says-2026-may-be-a-big-year-for-ai(@APPSO

更多 Voice Agent 学习笔记:

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流