3月27日,美團正式發布並開源原生多模态大模型LongCat-Next,通過統一的離散Token映射實現視覺與語音的原生處理。
觀點網訊:3月27日,美團正式發布並全面開源原生多模态大模型LongCat-Next及其核心組件——離散原生分辨率視覺分詞器(dNaViT)。
據介紹,該模型打破了當前大模型以“語言為中心”的傳統拼湊式架構,将圖像、語音與文本統一映射為同源的離散Token。通過純粹的“下一個Token預測”(NTP)範式,新模型讓視覺與語音成為AI的“原生母語”,標志着美團LongCat團隊在通往物理世界AI的道路上取得重要進展。
免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。
審校:
