京東即将開源視覺語言實時交互模型JoyAI-VL-Interaction

科技 AI 2026-06-17 08:37:30
為你播報
约 2分钟
京東團隊即将開源JoyAI-VL-Interaction模型,實現多模态從“一問一答”到“實時流式交互”的突破,在58個評測案例中對豆包和Gemini勝率分别達77.6%和87.9%。

觀點網訊:6月17日,京東團隊即将開源視覺語言實時交互模型JoyAI-VL-Interaction。該模型将多模态大模型從“一問一答”推進至“實時流式交互”,适用于AI需持續在場的場景。

據技術報告,JoyAI-VL-Interaction在監控預警、實時計數、實時翻譯、時間感知、直播解說與引導、長程記憶六類場景中表現突出。在58個案例的人工評測中,其對豆包的總體勝率為77.6%,對Gemini為87.9%,其中監控預警場景對兩者均取得100%勝率。

此次開源基于京東此前在WAIC上宣布的大模型品牌升級為JoyAI的技術基礎,涵蓋多模态能力,推理效率提升30%。開源内容包括模型權重、訓練代碼及評測基準,相關技術報告已提交至arXiv。

免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。

審校:
返回