图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、京东 JoyAI-VL 团队发布 JoyAI-VL-Interaction:开源 8B 级实时视觉 - 语言交互模型,端到端延迟低于 1 秒

京东 JoyAI-VL 团队开源了实时视觉 - 语言交互模型与系统 JoyAI-VL-Interaction。该项目基于 8B 参数规模,打破了传统的单回合「问答式」多模态交互限制,通过每秒自主评估视频流并决策动作,实现了低于 1 秒的多模态流式交互

https://huggingface.co/papers/2606.14777

https://github.com/jd-opensource/JoyAI-VL-Interaction/

( @wjqdev\@X)

2、Midjourney 跨界发布水下全身 3D 超声扫描仪,成像速度比传统 MRI 快了整整 100 倍

AI 图像巨头 Midjourney 正式宣布进军医疗硬件领域,发布其今年计划推出的 8 个探索性项目之首:Midjourney Scanner(水下全身超声层析成像扫描仪)。该设备利用 50 万个微型声学换能器采集海量数据,通过 AI 进行 3D 重建与分割,在 60 秒内即可提供亚毫米级的全身医学影像,成像速度比传统 MRI 快了整整 100 倍。

图片

核心特点

发布会参会者一手评价:

( @swyx @X@midjourney)

3、Catnip.ai 发布 MaineCoon:22B 参数音频 - 视频双流 DiT 模型,实现单卡 47.5 FPS 实时流式生成

***AI 创业公司 Catnip.ai 推出 22B 参数的实时自回归音视频基础模型 MaineCoon,该模型采用音视频双流联合生成的流式架构,在单张 H100 显卡上实现了 47.5 FPS 的推理速度(首帧延迟低于 1 秒)。通过引入智能体流式推理框架与自重采样训练,MaineCoon 解决了长视频流式生成的时序一致性与漂移问题,使高保真的人机音视频实时交互成为可能*。

( @catnips_ai\@X)

02 有亮点的产品

1、拾光记发布 Always-on 亲子语音记录器:支持 AI 自动高光剪辑与育儿沟通分析

图片

拾光记团队推出面向 2-6 岁亲子家庭的 Always-on 语音记录硬件及配套 App。该产品支持在家长授权时段内进行持续语音采集,利用 AI 自动挖掘并剪辑儿童语言的高光片段。系统通过结合历史对话数据与科学育儿知识库,分析亲子沟通模式并提供客观的改进建议。

@AI 语音 AI 思考)

2、乐奇 Rokid 联合 Pettichat 上线首个 AI 眼镜宠物翻译智能体:支持 20 余种意图识别,猫叫声学测试准确率达 94.6%

乐奇 Rokid 与 AI 宠物翻译品牌 Pettichat 达成合作,在 Rokid AI 眼镜端正式上线「萌小译」AI 智能体。该系统通过 Pettichat 智能项圈采集猫狗叫声并完成云端 AI 转译,将翻译结果实时以文字形式推送到眼镜的衍射光波导显示屏上,实现了免手机介入的人宠双向实时交互

@Rokid 乐奇)

3、YC 孵化项目 VoiceOS 发布语音智能体系统:集成多款第三方应用,实现语音指令跨软件一键执行

YC 孵化项目 VoiceOS 正式推出跨应用语音控制系统。该系统通过「智能体模式」与「智能听写模式」,将多应用间的繁琐操作简化为单句语音指令,免去了频繁的手动界面切换。该产品旨在通过语音交互层重构办公软件的日常工作流,大幅提升多任务协同效率

试用链接:

https://www.voiceos.com/

( @Voiceos@kai_brokering\@X)

03 有态度的观点

1、罗剑岚:具身智能不能简单照搬大语言模型的发展路径

图片

上海创智学院副教授、智元机器人首席科学家罗剑岚在接受采访时表示,具身智能不能简单照搬大语言模型的发展路径。

罗剑岚强调真实训练数据的重要性。他指出,当前行业中很多所谓「机器人基础模型」更接近在开源底座上的任务适配、中训练或微调,还没有进入大规模、异构、真实交互数据驱动的预训练阶段

罗剑岚给出的核心判断是,机器人领域离线训练 Loss 下降,并不必然对应真实部署成功率提升。大语言模型的 Scaling Law 建立在预训练 Loss 与能力之间相对稳定的统计关系上;

机器人面对开放物理世界,涉及接触、扰动、长尾场景、硬件差异和任务反馈,模型拟合静态数据不等于能驾驭现实。

真正的机器人基础模型预训练,也应该像 LLM 一样,吸纳极其广泛、甚至包含噪声的数据。机器人领域的数据来自真实世界中的交互、失败、纠错、恢复和长尾场景

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流