开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Meta 发布 Muse Spark:原生多模态推理模型,计算效率较 Llama 4 提升 10 倍

Meta Superintelligence Labs 推出 Muse 家族首款模型 Muse Spark。该模型采用原生多模态架构,通过重构预训练与强化学习(RL)技术栈,实现了相较于前代 Llama 4 Maverick 十倍以上的计算效率提升,并引入支持多智能体并行的推理模式

图片

(@Meta)

2、MOSS-VL 开源发布:交叉注意力架构驱动视频理解新范式,Open MOSS 多模态生态再添核心拼图

OpenMOSS 团队正式开源 MOSS-VL 系列视觉理解模型,这是继 MOVA(音视频生成)、MOSS-TTS Family(语音合成)、MOSS-Transcribe-Diarize(语音识别)之后,OpenMOSS 多模态生态系统中的又一核心组件——这次 OpenMOSS,让 AI 真正学会了「看」。MOSS-VL 是一个 11B 参数的视觉理解大模型,采用全新的交叉注意力架构,在大幅降低推理延迟的同时,于 30 余项主流 Benchmark 上全面对标乃至超越 Qwen3-VL

其核心亮点主要有:

图片

在罗永浩的星巴克"中杯、大杯、特大杯"名场面中,MOSS-VL 能够精确追踪多轮对话中人物的表情变化、情绪波动和核心矛盾。

问题:根据柜员的说法,柜台上三个杯子分别对应什么大小的?

面对经典的《星球大战》开场滚动字幕,MOSS-VL 展现出卓越的视频 OCR 能力,能够在画面持续滚动的过程中逐行精准识别并完整还原大段英文文本,充分体现了模型在动态场景下的文字捕捉与长文本输出能力。

GitHub 链接:

https://github.com/OpenMOSS/MOSS-VL

HuggingFace 链接:

https://huggingface.co/OpenMOSS-Team/MOSS-VL-Instruct-0408

(@ 模思智能)

3、Seed 全双工语音大模型发布:懂倾听、抗干扰,走向更自然的交互

字节跳动 Seed 团队发布原生全双工语音大模型 Seeduplex,实现从「回合制」向「边听边说」实时交互的架构跨越。该模型通过语音语义联合建模,显著提升了复杂环境下的抗干扰能力与对话节奏控制,目前已在豆包 App 全量上线并实现规模化应用。

Seeduplex 弃用基于独立 VAD(语音活动检测)和传统降噪算法的级联方案,采用原生端到端建模,支持流式感知与 LLM 底座的实时特征处理,实现语音与语义的一体化表达。

(@ 字节跳动 seed)

02 有亮点的产品

1、HeyGen 发布 Avatar V:基于 DiT 与流匹配实现全序列视频参考,支持动态身份建模与长参考线性扩展

HeyGen Research 发布虚拟人视频生成系统 Avatar V。该模型基于具有流匹配(Flow Matching)的 Diffusion Transformer (DiT)架构,通过直接条件化用户参考视频的全序列 Token,实现了超高清、任意长度且具备动态行为特征的虚拟人合成。

参考链接:

https://www.heygen.com/research/avatar-v-model

(@joshus_xu_@X)

2、ropet 完成超千万美元 A 轮融资:AI 宠物累计销量达 2 万台,90 天留存率超 80%

图片

萌友智能(ropet)完成由北京市人工智能产业投资基金、峰瑞资本等领投的超千万美元 A 轮融资

该公司通过「去工具化」的桌面级 AI 宠物硬件切入陪伴赛道,累计出货量近 2 万台,核心用户日均开机时长超过 20 小时,验证了以「生物感」为核心的硬件留存逻辑。

其产品定价约 2000 元,核心用户 90 天留存率达 80%–90%,日均深度互动时长超 2 小时。用户分布以美、日市场为主(占比约 70%–80%),国内占比约 20%–30%。

为了避免用户将其误认为语音助手,产品砍掉了 LLM 的常规对话功能。而是基于「亲密度系统」与「性格系统」的交互逻辑(如乐天、暴躁、爱哭),通过舵机旋转速度、声音表情幅度及响应频率模拟生物反馈。

硬件支持身份识别、面部情绪感知、手势识别、触摸感应及物理震动(陀螺仪)检测。系统可识别用户喂食(图片识别)等特定交互动作并转化为养成积分。

采用「硬件 + 增值服务」模式。主机随机配件购买率达 80%–90%,后期配件(毛皮、声音包、视觉皮肤等)复购率为 30%–40%。目前已与环球影业合作上线《驯龙高手》等 IP 定制化内容。

(@ 极客公园)

3、商汤发布 AI 智能体机器人「可悠」:端云协同架构,响应延迟 < 3s,打通人车家跨端记忆

图片

图片

商汤推出 AI 桌面智能机器人「可悠」(KeeeU),将其定位为具身智能实体化的 AI 智能体(Agent)。该产品通过自研的生长型家庭认知记忆框架,实现了在家庭桌面、车载座舱及移动端之间的任务与记忆无缝流转,旨在建立「一个灵魂,多个载体」的跨场景交互生态。

(@ 智能车参考)

03 有态度的观点

1、牛津、MIT 最新研究:用 AI 做题 10 分钟,独立解题能力就开始下滑

图片

近日,来自卡内基梅隆大学、牛津大学、MIT 及加州大学洛杉矶分校的联合团队发布了一篇最新研究成果,通过迄今最大规模的随机对照实验提供因果证据:使用 AI 辅助解题,不仅让人独立解题能力下滑,还会让人更快放弃思考

研究团队招募 1222 名参与者,分为「有 AI 辅助」与「全程独立」两组,分别完成分数计算和阅读理解任务。在最终撤走 AI 的独立测试环节,AI 辅助组的答题正确率显著低于对照组(实验一:0.57 vs 0.73)。

更关键的是,他们直接放弃作答的比例也明显更高。这意味着 AI 的影响不只是「做不对」,而是「不想做了」——动力本身被侵蚀了。研究进一步拆解了 AI 的使用方式:

61% 的参与者选择直接向 AI 索要答案,这部分人的测试成绩在所有组别中垫底,且相比自身实验前的水平出现了明显退步;而那些只向 AI 要提示、自己推导答案的参与者,则几乎未受负面影响。

换句话说,「让 AI 替你想」和「让 AI 帮你想」,结果截然不同。上述效应仅需约 10 至 15 分钟的 AI 交互即可产生。研究者给出了两个解释:

论文明确指出,这不是「别用 AI」的呼吁,但需要引起人们的警觉:当前 AI 系统更多是针对「让用户当下满意」优化,而非「帮用户长期成长」。

研究者认为,表层干预(如限制使用时间)只是治标,真正的解法是重新设计 AI 的协作方式——像好老师一样,有时候故意不给答案。

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流