觀點網訊:6月17日,京東團隊即将開源視覺語言實時交互模型JoyAI-VL-Interaction。該模型将多模态大模型從“一問一答”推進至“實時流式交互”,适用于AI需持續在場的場景。
據技術報告,JoyAI-VL-Interaction在監控預警、實時計數、實時翻譯、時間感知、直播解說與引導、長程記憶六類場景中表現突出。在58個案例的人工評測中,其對豆包的總體勝率為77.6%,對Gemini為87.9%,其中監控預警場景對兩者均取得100%勝率。
此次開源基于京東此前在WAIC上宣布的大模型品牌升級為JoyAI的技術基礎,涵蓋多模态能力,推理效率提升30%。開源内容包括模型權重、訓練代碼及評測基準,相關技術報告已提交至arXiv。
免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。