京东开源8B视觉交互模型JoyAI-VL-Interaction AI推向物理世界

京东开源JoyAI-VL-Interaction，一个8B参数的实时视觉语言交互模型，让AI在连续视频流中判断交互时机，推动AI从屏幕问答走向物理世界运营。

很多人都有过这样的时刻：开着导航找路，手机突然弹出一条重要消息；你低头想看，又怕错过路口。真正理想的 AI，不应该等你问"我该不该转弯"，而应该在看到路口、车速和路线变化时，提前说一句："下个路口靠右，消息我先帮你收着。"

办公室里也一样。视频会议开到一半，屏幕共享还停在上一页，讲的人已经翻到了新的数据表；有人在群里问"刚才那个数是多少"，大家都在忙着听。一个在场的 AI，应该能看见屏幕和讨论节奏，主动把关键数记下来，而不是等会后再被人追问。

这些都不是科幻场景，而是日常生活和工作里经常发生的小断点。真正需要 AI 介入的时刻，往往不是人已经说出口的那一秒，而是变化刚刚出现、人还没来得及反应的那一秒。

这就是过去几年多模态 AI 最尴尬的地方：模型越来越聪明，能读文字、看图片、听声音、理解视频，但它和人的关系仍然像一次客服对话。你问，它答。你不问，它就安静待命。

这种"回合制"交互适合写文案、查资料、做总结，却不太适合真实世界。真实世界不是一张静态截图，也不是一段准备好的问题。它一直在变化，而且变化发生时，人未必有空开口。

京东最近开源的 JoyAI-VL-Interaction，切中的正是这个问题。

它不是一个追求更会聊天的模型，而是一个让 AI 在连续视频流里判断"什么时候该说话、什么时候该闭嘴、什么时候该把复杂任务交给后台模型"的实时视觉语言交互模型。换句话说，它想解决的首先不是回答质量，而是交互时机。

这件事听上去很小，却可能是人机交互的一次重要转向：AI 不再只是等人提问的工具，而开始学习如何"在场"。

AI 最难的有时不是开口，而是别乱开口

今天的实时多模态交互，大体有两条路线。

一条是把问答做得更快。用户说一句，模型立刻回一句；用户上传画面，模型马上分析。这当然有价值，但本质上还是"你发球，我接球"。延迟低了，回合制没有消失。

另一条是全双工，让 AI 像电话那头的人一样，可以边听边说，可以被打断，也可以插话。这让语音助手自然了很多，但它主要解决的是"对话像不像人"。

京东这次更激进的地方在于，它把视觉放到了触发交互的位置。

为什么是视觉？因为真实世界里，很多事情一开始并不会变成一句话。

会议室投屏上的数字变了，不会主动解释；库房货架上的箱子放错层，也不会发语音；门店收银台前排队突然变长，在人眼里可能只是"有点忙"，但这恰恰是机器应该捕捉的信号。

语音是人的表达，视觉是世界的表达。前者告诉 AI"我想要什么"，后者告诉 AI"正在发生什么"。

如果未来的 AI 要进入家庭、工厂、门店、仓库、车辆、机器人，它不能只听人说话。它必须持续看见环境变化，并判断这些变化是否值得回应。

难点也在这里。

人类在社交里有一种很强的隐性能力：知道什么时候不打扰别人。朋友正在专心开车，你不会突然讲一个长故事；同事正在接电话，你不会立刻插入一个无关提醒。好的交互不是多说，而是在合适的时候说合适的话。

对模型来说，这反而很难。因为它要从没有明确边界的视频流里，自己切出"事件"：哪些变化重要，哪些只是背景噪声；哪些应该马上提醒，哪些可以继续观察；哪些一句话够了，哪些需要调用更强的后台 Agent。

JoyAI-VL-Interaction 把"沉默"设计成一个需要学习的动作，这一点很关键。一个会主动说话但不会克制的 AI，进入物理世界后不会更智能，只会更烦。

京东在技术报告里也给了一个直接对比：在六个真实流式场景的人类评测中，JoyAI-VL-Interaction 相比豆包内视频通话助手的整体胜率为 77.6%，相比 Gemini 的整体胜率为 87.9%。在最考验"抓住事件发生瞬间"的监控预警场景中，对两者的胜率都是 100%。也就是说，差距并不只是"说得好不好"，而是谁能更早、更准地判断该不该说。

8B 模型为什么够用？

这次京东没有把模型做成一个庞大的万能大脑，而是选择了一个更工程化的方案：8B 参数，目标是单张 RTX 3090 级别显卡即可部署。

这背后有一个很清楚的分工：前台模型负责"看情况"，后台模型负责"想明白"。

可以把它理解成一个前厅经理。它不需要自己会修所有机器、算所有账、写所有报告，但必须站在现场，知道哪件事要马上处理，哪件事该转给更专业的系统。

比如，摄像头看到一名仓库员工连续三次在同一个货位停留。前台模型可以先判断：这是不是拣货异常？要不要提醒他核对 SKU？如果只是简单提醒，模型自己就能完成；如果需要追溯库存、订单、路线规划，它就把任务委托给后台系统。

再比如，用户戴着 AI 眼镜修一台咖啡机。模型看到螺丝已经拆下、面板松动，就可以提醒"先别直接拉，右侧还有排线"；如果用户继续问"为什么不出水"，它再把故障排查交给更强的推理模型或维修知识库。

这类场景不要求前台模型写一篇长论文，但要求它低延迟、低成本、一直在线。一个 8B 模型反而更合适。

京东技术报告里提到的 AdaCodec 视频编码和长程记忆设计，也是围绕这个目标展开：连续视频流如果每一帧都按高成本处理，很快就会耗尽上下文和算力。更合理的方法是，稳定画面用少量 token 表示，真正发生变化时再投入更多视觉 token；短期保留原始画面，中期做文字摘要，长期进一步压缩。

这套设计让模型更像一个"现场值班员"：平时低成本巡检，有事时迅速聚焦。

开源也因此有了现实意义。一个只能在巨型集群上跑的交互模型，很难长出早期应用；一个开发者能部署、企业能试点、硬件厂商能嵌入的模型，才有机会被大量场景反复打磨。

在 AI 行业，很多能力不是在实验室里想出来的，而是在用户把它用到意想不到的地方之后长出来的。京东把模型放出来，本质上是在让真实需求参与定义下一代交互。

京东为什么押这个方向？

如果只看大模型榜单，京东并不是最爱讲故事的那类公司。但如果把 AI 放回物理世界，它的优势会变得更清楚。

京东的业务不是纯线上软件。它有仓储、配送、零售、健康、工业这些密集连接线下流程的场景。一个商品从工厂、仓库、干线、站点到用户手里，中间经过大量人、车、货、场的协同。这里天然需要感知、判断、调度和执行。

这也是京东此前提出"全球最大物理世界运营中心"时，真正值得关注的部分。

所谓物理世界运营中心，并不只是把更多仓库、车辆、门店连接起来，而是把真实世界里持续发生的状态变化，变成可理解、可预测、可调度的数据和动作。AI 在这里不是聊天窗口，而是运营系统的一层神经。

从这个角度看，京东最近一系列布局是连在一起的。

JoyAI-LLM Flash 强调中等规模模型的效率，48B 总参数、每次仅激活少量参数，并开源多种量化版本，说明京东在意的不是单纯堆大，而是可用、可部署、可规模化。

JoyAI-Image 强化视觉理解和空间智能，让模型不仅知道"这是什么"，还知道"它在哪里、和旁边东西是什么关系"；JoyAI-RA 则直接指向具身智能，把第一视角人类操作视频、仿真轨迹、真实机器人数据放在一起训练，补的是机器人最缺的真实行为数据。

再回到 JoyAI-VL-Interaction，它像是把这些能力往应用侧推了一步：让 AI 在真实环境里持续观察、判断时机、触发动作。

这条链路很清楚：模型要懂语言和图像，要能生成和理解，要会推理，也要能在现场低延迟运行；最后，还要接到机器人、无人车、无人机、门店设备和工业终端上。

这不是一个单点模型的故事，而是京东把 AI 重新接回物理世界的一套系统工程。

开源不是终点，是找场景的开始

实时视觉交互最有想象力的地方，不在于它能不能做一个更酷的视频助手，而在于它让 AI 从"被召唤"变成"在现场"。

在家庭里，它可以做看护的第二双眼睛；在门店里，它可以发现缺货、排队和顾客反复寻找；在工厂里，它可以捕捉危险动作、设备异常和流程偏差；在机器人身上，它会决定什么时候提醒、让路或请求人类接管。

这些场景很琐碎，不像发布会上演示的"惊艳能力"。但物理世界的商业价值，恰恰藏在这些琐碎动作里。

谁能把提醒、避障、分拣、补货做得更及时、更低成本、更稳定，谁就能把 AI 从新奇产品变成生产力系统。

所以，JoyAI-VL-Interaction 的意义不只是"京东又开源了一个模型"。它更像一个信号：AI 的竞争正在从屏幕里的问答，走向屏幕外的运营。

过去的大模型像一个知识丰富的远程顾问。未来的 AI 更像站在现场的同事：知道什么时候该看、该说、该动手，什么时候该找更专业的人来处理。

京东要做"全球最大物理世界运营中心"，商业逻辑也正在这里闭环。

物理世界给京东提供场景和数据，开源模型吸引开发者和生态，具身智能把感知与行动接起来，各类终端再把模型带回现场。

当这套循环跑起来，京东卖的不只是商品、云和模型，而是一种把真实世界高效组织起来的能力。

AI 最终要改变的，不只是人怎么和机器聊天，而是机器怎么参与世界运转。

而让 AI 学会"看情况"，可能就是这件事的开始。

原文链接：点击前往 >

文章作者：创业邦

版权申明：文章来源于创业邦。该文观点仅代表作者本人，扬帆出海平台仅提供信息存储空间服务，不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任，如若转载请联系原文作者。更多资讯关注扬帆出海官网：https://www.yfchuhai.com/

好文章，需要你的鼓励

扬帆出海，专注服务中国互联网出海！

AI 最难的有时不是开口，而是别乱开口

8B 模型为什么够用？

京东为什么押这个方向？

开源不是终点，是找场景的开始

相关阅读

热门活动

“越境”新增长——中越数娱增长实战沙龙&走访

GAME ON！游戏产业出海峰会

文章热榜

Kimi Work不是中国版Codex

拼多多1000亿豪赌新拼姆，跨境电商变天？

谈了10个"AI伴侣"，这个赛道未来价值不可估量

从合围亚马逊到寻找新大陆，速卖通摊开三张地图

热门报告

从VMware到分布式云：企业虚拟化转型实战指南

《2024泛娱乐出海白皮书》