研发效能全球首个！京东全栈开源 JoyAI-VL-Interaction，让大模型从 “一问一答” 走向 “边看边说”

京东云开发者 · 2026年06月23日 · 286 次阅读

一场火灾发生的瞬间，监控系统可以实时发出警报；独居老人在家摔倒，AI 可以马上提醒远方的亲人；视障人士外出，智能眼镜随时解读附近环境、指明方向……这些看似科幻的场景，在 AI 时代可能很快会成为现实。近日，京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction，这也是全球首个全栈开源的 interaction 模型和系统，并获得 vLLM-Omni 的 day-0 原生支持。它让大模型从 “一问一答” 走向 “边看边说”，开发者基于这套框架，可以快速搭建能持续观察、自主判断、即时响应的实景 AI 助手，有望推动 AI 在物理世界发挥巨大作用，为人类生产和生活带来全新变革。代码🔗https://github.com/jd-opensource/JoyAI-VL-Interactionhttps://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview 数据集https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction 不止看懂过去，更要看懂 “现在” 今天很多多模态模型，重在比拼参数、知识和推理，本质上仍是 “一问一答”，即用户上传图片或视频，提出问题，模型再给出回答。这种方式在图文问答、视频复盘、内容分析等场景中足够好用，但当 AI 进入真实世界，模型不只要聪明，更要 “在场”。正在发生的真实世界，无数瞬息万变的时刻，错过就很难补救。京东开源的 JoyAI-VL-Interaction，就是让 AI 像人一样持续 “在场”：边看、边记、边判断，并在关键时刻主动回应，或选择性地交接给后台 Agent。相比传统模型，JoyAI-VL-Interaction 有三重突破：模型🔗

1、主动判断，而非被动回答。传统模型通常要等用户发起问题，才开始处理当前画面，而 JoyAI-VL-Interaction 可以持续观察视频流，自主判断什么时候该说话，什么时候该沉默。比如用户设置 “裁判出示红牌时提醒我”，模型就会持续值守画面，并在事件发生时自动预警，而不是等用户再问一句 “刚才发生了什么”。

2、实时响应，而非事后总结。传统视频理解更多是上传完整视频后再分析，但在安防预警、实时翻译、直播解说、操作指导等场景里，晚几秒，体验和价值都会不同。而 JoyAI-VL-Interaction 面向正在发生的视频流，画面变化时就能响应。

3、适时智能体委托，同时保持观察和交互。JoyAI-VL-Interaction 还具备后台任务委派能力与相关机制。当模型遇到生成代码、调用工具、复杂推理等任务时，可以交给后台大模型或 Agent。前台模型继续观察现场，后台模型处理复杂任务，结果返回后再自然接回对话。它更像一套 “前台实时助手 + 后台智能大脑” 的协作系统：前台负责在场，后台负责干重活，有机会开启 AI 与人类协作的新范式。

开源一套系统，而不只是一个模型在实时视频流中，JoyAI-VL-Interaction 每秒都会做一次判断，比如，继续观察、保持沉默，发现关键事件、主动回应，遇到复杂任务，交给后台 Agent 处理。这意味着，“什么时候说话” 不再只靠外部规则或定时触发，而是成为模型自己学会的能力。对实时交互来说，会说话很重要，会沉默也同样重要。

一个好的 AI 助手，不应该一直打扰用户，而应该知道什么时候该出现，什么时候该安静，以及什么时候自己解决，什么时候交由 agent 解决。很多开源模型只提供基础推理能力。开发者如果要真正用起来，还需要自己处理视频接入、语音交互、记忆模块、前后端协同等工程问题。JoyAI-VL-Interaction 开源的是完整技术栈，包括模型权重、交互数据集、训练方案和完整可部署系统，可以帮助开发者更快从模型研究走向真实场景落地。JoyAI-VL-Interaction 支持摄像头、直播流、监控流等多种视频输入，也支持语音输入输出、可视化界面、长期记忆、后台模型接口和 vLLM 部署方案。ASR、TTS、可视化界面、后台模型、外部工具和业务模块，都可以按需替换。开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。换句话说，JoyAI-VL-Interaction 不是封闭产品，而是一套开放框架。它既可以用于研究，也可以改造成安防监控、老人小孩看护、直播讲解、电商导购、操作指导、AI 眼镜、无障碍辅助等实时 AI 助手。

在评测中，JoyAI-VL-Interaction 覆盖监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在这些与视觉触发的主动响应、实时性高度相关的 58 个真人盲评案例中，JoyAI-VL-Interaction 对比豆包视频通话助手，总体胜率 77.6%；对比 Gemini 视频通话助手，总体胜率 87.9%。尤其在监控预警场景中，对两个基线均取得 100% 胜率。这源于交互模型相较传统 “一问一答” 的回合制模型的天然优势：自主交互性长在模型内部，而非依赖外部触发。从生成到交互，AI 走向物理世界今年以来，京东在模型基建方面取得多项重要进展。

3 月，京东开源基础大模型 JoyAI-LLM Flash 的 Instruct 版本，打破了大模型参数内卷的困局；4 月，京东开源图像模型 JoyAI-Image-Edit，空间理解与编辑能力达到世界一流水平。6 月 3 日，京东又开源长视频生成模型 JoyAI-Echo，推动长视频生成 “所想即所得” 时代到来，标志着京东在上述领域进入全球第一梯队。从 “一问一答” 到 “边看边记边回应”，从离线视频理解到实时流式交互，从屏幕里的 AI 到物理世界里的 AI——此次 JoyAI-VL-Interaction 的全栈开源，是京东把 AI 从数字世界推向物理世界的又一步。深耕零售、物流、健康、工业等实体产业二十余年，京东拥有全球领先的物理世界运营网络，覆盖仓储、配送、门店、直播、客服、售后海量真实场景，每天都在发生人、货、场的实时互动。对 AI 而言，这些不是抽象数据，而是进入物理世界的天然训练场与应用场，为京东打造 “全球最大物理世界运营中心” 提供坚实的保障。未来京东将持续加大研发投入，开放技术能力，推动 AI 从千行百业走进千家万户。JoyAI-VL-Interaction 获得了 vLLM-Omni 的 day-0 支持🎉🎉🎉已经原生合入 vLLM-Omni 主线大家可以在 vLLM-Omni 上一键拉起服务体验也可以在我们的仓库下一键启动～

代码🔗https://github.com/jd-opensource/JoyAI-VL-Interactionhttps://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview 数据集https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction模型🔗

暫無回覆。

需要登录後方可回應，如果你還沒有帳號按這裡注册。

研发效能 全球首个！京东全栈开源 JoyAI-VL-Interaction，让大模型从 “一问一答” 走向 “边看边说”

研发效能 全球首个！京东全栈开源 JoyAI-VL-Interaction，让大模型从 “一问一答” 走向 “边看边说”

研发效能全球首个！京东全栈开源 JoyAI-VL-Interaction，让大模型从 “一问一答” 走向 “边看边说”

研发效能全球首个！京东全栈开源 JoyAI-VL-Interaction，让大模型从 “一问一答” 走向 “边看边说”