开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@ 鲍勃

01 有话题的技术

1、京东 JoyAI-VL 团队发布 JoyAI-VL-Interaction：开源 8B 级实时视觉 - 语言交互模型，端到端延迟低于 1 秒

京东 JoyAI-VL 团队开源了实时视觉 - 语言交互模型与系统 JoyAI-VL-Interaction。该项目基于 8B 参数规模，打破了传统的单回合「问答式」多模态交互限制，通过每秒自主评估视频流并决策动作，实现了低于 1 秒的多模态流式交互。

主动性决策机制：基于 JoyAI-VL-8B 视觉语言指令模型，将语音输入输出作为可插拔组件与核心模型解耦。模型每秒在「说话」、「保持沉默」或「委托任务」三者间进行自主决策，从而无需等待用户指令即可在突发场景（如火灾、跌倒）中主动预警。
AdaCodec 预测性视频编解码：系统集成 AdaCodec 算法，在处理实时长视频流时，对可预测的连续帧仅消耗极少 token，仅在画面发生显著变化时保留完整细节，有效控制了长会话部署中的 token 消耗增速与内存开销。
400 万时序对齐样本与强化学习：使用超 400 万个包含秒级行为标注（何时发声、何时保持沉默、何时调用外部工具）的时序对齐视频剪辑进行微调，并引入强化学习，使 8B 模型在未进行特定应用界面训练的情况下，涌现出了引导手机 App 购物等操作能力。
后台智能体协同委托：系统支持在面临复杂数字化任务时，由模型将子任务异步委托给后台智能体（如 OpenClaw 或 Claude Code）或外部 API，在等待结果返回的同时，前端模型继续保持对视频流的实时监测与交互。
时效性任务胜率优势：在包含监控、翻译、计数等 58 个事件驱动的交互测试中，该系统对阵豆包和 Gemini 的人评综合胜率分别达到 77.6% 和 87.9%，其中在监控告警、实时翻译和动态计数等高时效性场景中胜率达 100%。

https://huggingface.co/papers/2606.14777

https://github.com/jd-opensource/JoyAI-VL-Interaction/

( @wjqdev\@X)

2、Midjourney 跨界发布水下全身 3D 超声扫描仪，成像速度比传统 MRI 快了整整 100 倍

AI 图像巨头 Midjourney 正式宣布进军医疗硬件领域，发布其今年计划推出的 8 个探索性项目之首：Midjourney Scanner（水下全身超声层析成像扫描仪）。该设备利用 50 万个微型声学换能器采集海量数据，通过 AI 进行 3D 重建与分割，在 60 秒内即可提供亚毫米级的全身医学影像，成像速度比传统 MRI 快了整整 100 倍。

核心特点

50 万通道传感器环与 TB/s 级数据流：扫描仪的核心是一个由 50 万个沙粒大小、兼具收发功能的硅基超声换能器组成的传感器环。设备工作时，每秒会产生 TB 级别的原始声学数据，实时流式传输至数千个节点的计算集群中进行处理。
60 秒全身 3D 逆向重构：利用声波穿过水、皮肤、脂肪、肌肉和骨骼等不同密度介质时的传播形变，AI 算法进行亚毫米级 3D 地图的逆向重构。用户只需通过升降平台浸入温水，60 秒内即可完成扫描，并支持 AI 实时语义分割。
1000 万美元极低研发成本：该系统在没有任何外部投资、年研发预算仅 1000 万美元的「极简」架构下实现了该系统的开发。其资金效率较传统医疗器械巨头、政府及前沿实验室实现了 40 至 100 倍的跨越式提升。
去医疗化的渐进式合规策略：第一阶段避开严苛的 FDA 诊断审批限制，仅作为无创的「身体成分图谱」设备进行商业部署，后续通过持续积累的真实世界测试数据，逐步向 FDA 申请正式的医疗诊断认证。

发布会参会者一手评价：

对标 iPhone 与 Tesla 的历史性首发：曾现场见证初代 iPhone 和特斯拉发布会的科技圈意见领袖 Robert Scoble 评价，这场发布会的震撼程度与前两者处于同一量级。
抗衰极客站台：硅谷知名抗衰先锋 Bryan Johnson 亲临现场力挺 Midjourney 创始人 David Holz。
硅基超声的「ChatGPT 时刻」：现场技术博主 swyx 指出，该系统标志着芯片级超声技术（如 Butterfly Network 路线）在重建算法上的重大突破。更好的科学始于更好的成像数据，廉价、高精度超声成像的普及将带来医学研究的数据大爆炸。同时，他质疑为何传统巨头、政府实验室在拥有巨大预算的情况下，无法实现同等量级的研发创新。

( @swyx @X、@midjourney)

3、Catnip.ai 发布 MaineCoon：22B 参数音频 - 视频双流 DiT 模型，实现单卡 47.5 FPS 实时流式生成

***AI 创业公司 Catnip.ai 推出 22B 参数的实时自回归音视频基础模型 MaineCoon，该模型采用音视频双流联合生成的流式架构，在单张 H100 显卡上实现了 47.5 FPS 的推理速度（首帧延迟低于 1 秒）。通过引入智能体流式推理框架与自重采样训练，MaineCoon 解决了长视频流式生成的时序一致性与漂移问题，使*高保真的人机音视频实时交互成为可能**。

双流 DiT 联合流式架构：采用 48 层、约 21B 参数的双流扩散 Transformer 骨干网络。视频流通道宽度为 4096，音频流通道宽度为 2048，两者通过双向交叉注意力机制实现底层对齐，单次生成块仅需 4-NFE 去噪，无需「先渲染视频后配音」的传统管线。
极低延迟与多硬件兼容：首帧渲染延迟控制在 1 秒以内，端到端生成速度较 LiveAvatar、LTX-2.3 等同类系统提升 6.7 至 7.7 倍；单张 H100 推理速度达 47.5 FPS，单张 RTX Pro 6000 显卡可达 30 FPS。
智能体流式推理框架：引入由语言模型充当的「导演」与智能 KV 缓存管理器组成的运行时环路，支持 10 分钟以上的超长视频无缝流式生成，通过「前向修复」机制在未来帧和缓存中动态纠正画面和声音漂移，无需硬重启视频。
原生流式三阶段训练：第一阶段引入自重采样（Self-resampling）模拟不完美历史缓存，提升模型自愈能力；第二阶段利用 V-JEPA 与 REPA 进行特征对齐，加速结构与运动特征学习；第三阶段通过领域感知优先权蒸馏（ROPD）将对话、远景、对口型等多领域专家策略融合成单一流式策略。
SocialVideo-Bench 评测登顶：在社交音视频评测集 SocialVideo-Bench 中，MaineCoon 获得 0.934 的综合平均分，在视觉质量（4.71）和音频质量（4.35）等多个关键维度上超越 SoulX-FlashTalk 及 LTX-2.3。

( @catnips_ai\@X)

02 有亮点的产品

1、拾光记发布 Always-on 亲子语音记录器：支持 AI 自动高光剪辑与育儿沟通分析

拾光记团队推出面向 2-6 岁亲子家庭的 Always-on 语音记录硬件及配套 App。该产品支持在家长授权时段内进行持续语音采集，利用 AI 自动挖掘并剪辑儿童语言的高光片段。系统通过结合历史对话数据与科学育儿知识库，分析亲子沟通模式并提供客观的改进建议。

Always-on 硬件形态与无对话设计：产品采用手环及挂件形态，专为 2-6 岁儿童日常场景设计；主动摒弃人机语音对话交互，专注于后台无感记录，避免 AI 设备干扰儿童的自然陪伴环境。
AI 自动语言高光剪辑：支持在授权时间段内进行持续音频采集，通过 AI 算法自动识别、提取并剪辑儿童的精彩语言瞬间，解决家长使用手机录制不及时、不完整的问题。
基于历史上下文的亲子沟通分析：AI 结合历史对话记录与科学育儿知识，评估家长的日常沟通方式，针对不合理的亲子互动提供客观的观察报告与话术改进建议。
多端客户端支持：配套软件已上线 iOS 平台，并面向安卓和华为用户提供官网 APK 下载，支持手机录音、AI 剪辑及个性化育儿分析功能。

（@AI 语音 AI 思考）

2、乐奇 Rokid 联合 Pettichat 上线首个 AI 眼镜宠物翻译智能体：支持 20 余种意图识别，猫叫声学测试准确率达 94.6%

乐奇 Rokid 与 AI 宠物翻译品牌 Pettichat 达成合作，在 Rokid AI 眼镜端正式上线「萌小译」AI 智能体。该系统通过 Pettichat 智能项圈采集猫狗叫声并完成云端 AI 转译，将翻译结果实时以文字形式推送到眼镜的衍射光波导显示屏上，实现了免手机介入的人宠双向实时交互。

500 万条真实声纹数据集：该智能体依托浙江大学动物科学学院提供的超 500 万条真实宠物声纹数据进行模型训练，支持识别「饥饿」、「害怕」、「想玩耍」等 20 余种常见宠物情绪与意图。
高精度声学识别算法：官方测试数据显示，该模型在猫的情境声学模式测试中准确率达到 94.6%，在狗的声纹识别中准确率达到 92.3%。
多设备云端协同链路：硬件层面采用 Pettichat 项圈进行音频采集与转译，通过云端实时同步至采用衍射光波导显示技术的乐奇 AI 眼镜，实现低延迟的前景文本视场角渲染。
端侧 AI 智能体生态拓展：该功能作为乐奇智能体商店的全新组件引入，后续版本规划接入语音播报、GPS 宠物定位及宠物健康档案等 API 接口，推进由单一翻译向动物行为世界模型的演进。

（@Rokid 乐奇）

3、YC 孵化项目 VoiceOS 发布语音智能体系统：集成多款第三方应用，实现语音指令跨软件一键执行

YC 孵化项目 VoiceOS 正式推出跨应用语音控制系统。该系统通过「智能体模式」与「智能听写模式」，将多应用间的繁琐操作简化为单句语音指令，免去了频繁的手动界面切换。该产品旨在通过语音交互层重构办公软件的日常工作流，大幅提升多任务协同效率。

跨应用智能体驱动链路：其「智能体模式」支持单条自然语言指令驱动跨应用协作。例如，指令「回复 Sam 的邮件并预约明天的会议」可自动触发 Gmail 检索及回复、读取日历数据、创建新日程并自动添加参会者，将原本需要 12 步的跨软件手动操作缩减至 1 步。
应用生态原生级调用：已打通 Notion、Cursor、Slack、Gmail、Linear、Figma 等主流开发与办公软件，支持通过底层接口实现无缝的上下文切换与数据写入。
自适应排版听写引擎：其「听写模式」并非简单的语音转文字，而是支持根据语境自动对原始语音进行逻辑重组、语法修正与结构化排版，输出符合邮件或文档规范的文本。
本地优先的隐私安全策略：默认本地化处理数据，音频不保存在服务器上。控制台提供「不保存云端音频」与「不使用个人数据训练 AI 模型」等安全开关；企业级版本提供零数据保留承诺，并合规对接 SOC 2 Type II、ISO 27001 等安全认证。

试用链接：

https://www.voiceos.com/

( @Voiceos、@kai_brokering\@X)

03 有态度的观点

1、罗剑岚：具身智能不能简单照搬大语言模型的发展路径

上海创智学院副教授、智元机器人首席科学家罗剑岚在接受采访时表示，具身智能不能简单照搬大语言模型的发展路径。

罗剑岚强调真实训练数据的重要性。他指出，当前行业中很多所谓「机器人基础模型」更接近在开源底座上的任务适配、中训练或微调，还没有进入大规模、异构、真实交互数据驱动的预训练阶段。

罗剑岚给出的核心判断是，机器人领域离线训练 Loss 下降，并不必然对应真实部署成功率提升。大语言模型的 Scaling Law 建立在预训练 Loss 与能力之间相对稳定的统计关系上；

机器人面对开放物理世界，涉及接触、扰动、长尾场景、硬件差异和任务反馈，模型拟合静态数据不等于能驾驭现实。

真正的机器人基础模型预训练，也应该像 LLM 一样，吸纳极其广泛、甚至包含噪声的数据。机器人领域的数据来自真实世界中的交互、失败、纠错、恢复和长尾场景。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考

↙↙↙阅读原文可查看相关链接，并与作者交流