{{!completeInfo?'请完善个人信息':''}}
京东开源JoyAI-VL-Interaction,一个8B参数的实时视觉语言交互模型,让AI在连续视频流中判断交互时机,推动AI从屏幕问答走向物理世界运营。
很多人都有过这样的时刻:开着导航找路,手机突然弹出一条重要消息;你低头想看,又怕错过路口。真正理想的 AI,不应该等你问"我该不该转弯",而应该在看到路口、车速和路线变化时,提前说一句:"下个路口靠右,消息我先帮你收着。"
办公室里也一样。视频会议开到一半,屏幕共享还停在上一页,讲的人已经翻到了新的数据表;有人在群里问"刚才那个数是多少",大家都在忙着听。一个在场的 AI,应该能看见屏幕和讨论节奏,主动把关键数记下来,而不是等会后再被人追问。
这些都不是科幻场景,而是日常生活和工作里经常发生的小断点。真正需要 AI 介入的时刻,往往不是人已经说出口的那一秒,而是变化刚刚出现、人还没来得及反应的那一秒。
这就是过去几年多模态 AI 最尴尬的地方:模型越来越聪明,能读文字、看图片、听声音、理解视频,但它和人的关系仍然像一次客服对话。你问,它答。你不问,它就安静待命。
这种"回合制"交互适合写文案、查资料、做总结,却不太适合真实世界。真实世界不是一张静态截图,也不是一段准备好的问题。它一直在变化,而且变化发生时,人未必有空开口。
京东最近开源的 JoyAI-VL-Interaction,切中的正是这个问题。

它不是一个追求更会聊天的模型,而是一个让 AI 在连续视频流里判断"什么时候该说话、什么时候该闭嘴、什么时候该把复杂任务交给后台模型"的实时视觉语言交互模型。换句话说,它想解决的首先不是回答质量,而是交互时机。
这件事听上去很小,却可能是人机交互的一次重要转向:AI 不再只是等人提问的工具,而开始学习如何"在场"。
今天的实时多模态交互,大体有两条路线。
一条是把问答做得更快。用户说一句,模型立刻回一句;用户上传画面,模型马上分析。这当然有价值,但本质上还是"你发球,我接球"。延迟低了,回合制没有消失。
另一条是全双工,让 AI 像电话那头的人一样,可以边听边说,可以被打断,也可以插话。这让语音助手自然了很多,但它主要解决的是"对话像不像人"。
京东这次更激进的地方在于,它把视觉放到了触发交互的位置。
为什么是视觉?因为真实世界里,很多事情一开始并不会变成一句话。
会议室投屏上的数字变了,不会主动解释;库房货架上的箱子放错层,也不会发语音;门店收银台前排队突然变长,在人眼里可能只是"有点忙",但这恰恰是机器应该捕捉的信号。
语音是人的表达,视觉是世界的表达。前者告诉 AI"我想要什么",后者告诉 AI"正在发生什么"。
如果未来的 AI 要进入家庭、工厂、门店、仓库、车辆、机器人,它不能只听人说话。它必须持续看见环境变化,并判断这些变化是否值得回应。
难点也在这里。
人类在社交里有一种很强的隐性能力:知道什么时候不打扰别人。朋友正在专心开车,你不会突然讲一个长故事;同事正在接电话,你不会立刻插入一个无关提醒。好的交互不是多说,而是在合适的时候说合适的话。
对模型来说,这反而很难。因为它要从没有明确边界的视频流里,自己切出"事件":哪些变化重要,哪些只是背景噪声;哪些应该马上提醒,哪些可以继续观察;哪些一句话够了,哪些需要调用更强的后台 Agent。
JoyAI-VL-Interaction 把"沉默"设计成一个需要学习的动作,这一点很关键。一个会主动说话但不会克制的 AI,进入物理世界后不会更智能,只会更烦。
京东在技术报告里也给了一个直接对比:在六个真实流式场景的人类评测中,JoyAI-VL-Interaction 相比豆包内视频通话助手的整体胜率为 77.6%,相比 Gemini 的整体胜率为 87.9%。在最考验"抓住事件发生瞬间"的监控预警场景中,对两者的胜率都是 100%。也就是说,差距并不只是"说得好不好",而是谁能更早、更准地判断该不该说。

这次京东没有把模型做成一个庞大的万能大脑,而是选择了一个更工程化的方案:8B 参数,目标是单张 RTX 3090 级别显卡即可部署。
这背后有一个很清楚的分工:前台模型负责"看情况",后台模型负责"想明白"。
可以把它理解成一个前厅经理。它不需要自己会修所有机器、算所有账、写所有报告,但必须站在现场,知道哪件事要马上处理,哪件事该转给更专业的系统。
比如,摄像头看到一名仓库员工连续三次在同一个货位停留。前台模型可以先判断:这是不是拣货异常?要不要提醒他核对 SKU?如果只是简单提醒,模型自己就能完成;如果需要追溯库存、订单、路线规划,它就把任务委托给后台系统。
再比如,用户戴着 AI 眼镜修一台咖啡机。模型看到螺丝已经拆下、面板松动,就可以提醒"先别直接拉,右侧还有排线";如果用户继续问"为什么不出水",它再把故障排查交给更强的推理模型或维修知识库。
这类场景不要求前台模型写一篇长论文,但要求它低延迟、低成本、一直在线。一个 8B 模型反而更合适。

京东技术报告里提到的 AdaCodec 视频编码和长程记忆设计,也是围绕这个目标展开:连续视频流如果每一帧都按高成本处理,很快就会耗尽上下文和算力。更合理的方法是,稳定画面用少量 token 表示,真正发生变化时再投入更多视觉 token;短期保留原始画面,中期做文字摘要,长期进一步压缩。
这套设计让模型更像一个"现场值班员":平时低成本巡检,有事时迅速聚焦。
开源也因此有了现实意义。一个只能在巨型集群上跑的交互模型,很难长出早期应用;一个开发者能部署、企业能试点、硬件厂商能嵌入的模型,才有机会被大量场景反复打磨。
在 AI 行业,很多能力不是在实验室里想出来的,而是在用户把它用到意想不到的地方之后长出来的。京东把模型放出来,本质上是在让真实需求参与定义下一代交互。
如果只看大模型榜单,京东并不是最爱讲故事的那类公司。但如果把 AI 放回物理世界,它的优势会变得更清楚。
京东的业务不是纯线上软件。它有仓储、配送、零售、健康、工业这些密集连接线下流程的场景。一个商品从工厂、仓库、干线、站点到用户手里,中间经过大量人、车、货、场的协同。这里天然需要感知、判断、调度和执行。
这也是京东此前提出"全球最大物理世界运营中心"时,真正值得关注的部分。
所谓物理世界运营中心,并不只是把更多仓库、车辆、门店连接起来,而是把真实世界里持续发生的状态变化,变成可理解、可预测、可调度的数据和动作。AI 在这里不是聊天窗口,而是运营系统的一层神经。
从这个角度看,京东最近一系列布局是连在一起的。
JoyAI-LLM Flash 强调中等规模模型的效率,48B 总参数、每次仅激活少量参数,并开源多种量化版本,说明京东在意的不是单纯堆大,而是可用、可部署、可规模化。
JoyAI-Image 强化视觉理解和空间智能,让模型不仅知道"这是什么",还知道"它在哪里、和旁边东西是什么关系";JoyAI-RA 则直接指向具身智能,把第一视角人类操作视频、仿真轨迹、真实机器人数据放在一起训练,补的是机器人最缺的真实行为数据。
再回到 JoyAI-VL-Interaction,它像是把这些能力往应用侧推了一步:让 AI 在真实环境里持续观察、判断时机、触发动作。

这条链路很清楚:模型要懂语言和图像,要能生成和理解,要会推理,也要能在现场低延迟运行;最后,还要接到机器人、无人车、无人机、门店设备和工业终端上。
这不是一个单点模型的故事,而是京东把 AI 重新接回物理世界的一套系统工程。
实时视觉交互最有想象力的地方,不在于它能不能做一个更酷的视频助手,而在于它让 AI 从"被召唤"变成"在现场"。
在家庭里,它可以做看护的第二双眼睛;在门店里,它可以发现缺货、排队和顾客反复寻找;在工厂里,它可以捕捉危险动作、设备异常和流程偏差;在机器人身上,它会决定什么时候提醒、让路或请求人类接管。
这些场景很琐碎,不像发布会上演示的"惊艳能力"。但物理世界的商业价值,恰恰藏在这些琐碎动作里。
谁能把提醒、避障、分拣、补货做得更及时、更低成本、更稳定,谁就能把 AI 从新奇产品变成生产力系统。
所以,JoyAI-VL-Interaction 的意义不只是"京东又开源了一个模型"。它更像一个信号:AI 的竞争正在从屏幕里的问答,走向屏幕外的运营。

过去的大模型像一个知识丰富的远程顾问。未来的 AI 更像站在现场的同事:知道什么时候该看、该说、该动手,什么时候该找更专业的人来处理。
京东要做"全球最大物理世界运营中心",商业逻辑也正在这里闭环。
物理世界给京东提供场景和数据,开源模型吸引开发者和生态,具身智能把感知与行动接起来,各类终端再把模型带回现场。
当这套循环跑起来,京东卖的不只是商品、云和模型,而是一种把真实世界高效组织起来的能力。
AI 最终要改变的,不只是人怎么和机器聊天,而是机器怎么参与世界运转。
而让 AI 学会"看情况",可能就是这件事的开始。
原文链接:点击前往 >
文章作者:创业邦
版权申明:文章来源于创业邦。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/
{{likeNum}}
好文章,需要你的鼓励
已关注
关注