京東即将開源視覺語言實時交互模型JoyAI-VL-Interaction

2026-06-17 08:37:30

為你播報

约 2分钟

京東團隊即将開源JoyAI-VL-Interaction模型，實現多模态從“一問一答”到“實時流式交互”的突破，在58個評測案例中對豆包和Gemini勝率分别達77.6%和87.9%。

觀點網訊：6月17日，京東團隊即将開源視覺語言實時交互模型JoyAI-VL-Interaction。該模型将多模态大模型從“一問一答”推進至“實時流式交互”，适用于AI需持續在場的場景。

據技術報告，JoyAI-VL-Interaction在監控預警、實時計數、實時翻譯、時間感知、直播解說與引導、長程記憶六類場景中表現突出。在58個案例的人工評測中，其對豆包的總體勝率為77.6%，對Gemini為87.9%，其中監控預警場景對兩者均取得100%勝率。

此次開源基于京東此前在WAIC上宣布的大模型品牌升級為JoyAI的技術基礎，涵蓋多模态能力，推理效率提升30%。開源内容包括模型權重、訓練代碼及評測基準，相關技術報告已提交至arXiv。

免責聲明：本文内容與數據由觀點根據公開信息整理，不構成投資建議，使用前請核實。

審校：

你可能感興趣：