今天,智譜正式發布並開源視覺語言大模型GLM-4.1V-Thinking,標志着GLM繫列視覺模型實現從感知走向認知的關鍵躍遷。
7月2日,智譜開放平台産業生态大會在上海浦東張江科學會堂舉辦。大會匯聚政府領導、頭部開發者與企業用戶,集中呈現智譜在多模态智能與MaaS生态的核心成果。會上宣布浦東創投集團和張江集團對智譜總額10億元的戰略投資,並于近期完成首筆交割,為智譜構建可信的人工智能基礎設施注入堅實動能。

智譜CEO張鵬在主題演講中發布了智譜攜手生态伙伴邁向AGI的兩項最新成果:一是開源發布新一代通用視覺語言模型GLM-4.1V-Thinking,以推理能力為核心突破,刷新10B級别多模态模型性能上限;二是MaaS全新上線Agent聚合平台「應用空間」,全面激活行業場景中的AI能力,聯動Z基金啟動Agent開拓者數億元專項扶持計劃。
同時,在大會主題演講環節,智譜高級副總裁吳玮傑、蒙牛集團副總裁&首席數智官李琤潔、中國銀聯金融科技研究院副院長呂旭峰分别就大模型落地實踐做了分享。在panel環節中,捏TA創始人胡修涵、AiPPT聯合創始人王振同、flowith CMO 拐子和張江智荟總經理沈玲就bigmodel原生創業話題進行了觀點碰撞。

全新發布:GLM-4.1V-Thinking
今天,智譜正式發布並開源視覺語言大模型GLM-4.1V-Thinking,標志着GLM繫列視覺模型實現從感知走向認知的關鍵躍遷。
GLM-4.1V-Thinking是一款支持圖像、視頻、文檔等多模态輸入的通用推理型大模型,專為復雜認知任務設計。它在GLM-4V架構基礎上引入“思維鏈推理機制(Chain-of-Thought Reasoning)”,采用“課程采樣強化學習策略(RLCS, Reinforcement Learning with Curriculum Sampling)”,繫統性提升模型跨模态因果推理能力與穩定性。
其輕量版GLM-4.1V-9B-Thinking模型參數控制在10B級别,在兼顧部署效率的同時實現性能突破。該模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28項權威評測中,有23項達成10B級模型的最佳成績,其中18項更是持平或超越參數量高達72B的Qwen-2.5-VL,充分展現了小體積模型的極限性能潛力。

模型特别在以下任務中表現卓越,展示出高度的通用性與穩健性:
圖文理解(Image General):精準識别並綜合分析圖像與文本信息;
數學與科學推理(Math & Science):支持持復雜題解、多步演繹與公式理解;
視頻理解(Video):具備時序分析與事件邏輯建模能力;
GUI 與網頁智能體任務(UI2Code、Agent):理解界面結構,輔助自動化操作;
視覺錨定與實體定位(Grounding):語言與圖像區域精準對齊,提升人機交互可控性。
目前,GLM-4.1V-9B-Thinking已在Hugging Face與魔搭社區同步開源。包含兩個模型,分别是GLM-4.1V-9B-Base基座模型,希望能夠幫助更多研究者探索視覺語言模型的能力邊界作;GLM-4.1V-9B-Thinking,具備深度思考和推理能力的模型,正常使用和體驗,均為這一模型。
我們在智譜開放平台上線GLM-4.1V-Thinking-Flash API,免費。
論文鏈接:
GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
https://arxiv.org/abs/2507.01006
開源列表:
Github:https://github.com/THUDM/GLM-4.1V-Thinking
ModelScope:https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
Hugging Face:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
HuggingFace 體驗鏈接:https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo
魔搭社區體驗鏈接: https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo
API 接口文檔:
https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking
在面向科學研究、教育、自主Agent及多模态助手等更復雜現實世界應用時,補足推理能力的GLM-4.1V-Thinking ,真正解決開放式、信息豐富的千行百業的場景問題。如長視頻理解、圖像問答、學科解題、文字識别、文檔解讀、Grounding、GUI Agent和代碼生成。
GLM-4.1V-Thinking 代表了通向通用多模态推理的重要一步。在接下來的工作中,我們将通過更優的獎勵模型、更好的 RL 算法進一步優化 GLM-4.1V-Thinking 繫列模型;同時,我們也将探索視覺與語言模态如何相互強化,這可能為提升通用推理能力帶來重大突破。
MaaS應用空間:面向千行百業的AI生态市場
今天,我們推出全新生态平台「Agent應用空間」,並開啟「Agents開拓者計劃」,投入數億資金,全方位扶持AI Agents創業團隊。
「Agent應用空間」是一個面向企業客戶和開發者的AI Agent能力聚合平台,優秀開發者與企業用戶。平台匯聚豐富的Agent應用與模型插件(MCP),提供開箱即用、靈活編排的組件服務和Agents 應用,幫助企業無需自建大模型團隊,即可低門檻接入成熟、安全、可控的Agent能力。

「Agent應用空間」提供一站式開發工具鏈、完整的模型調用接口與靈活的應用組合機制,是“AI原生化”升級的重要起點。正如智譜CEO張鵬所言:“AI的未來,不僅是模型性能的比拼,更是生産範式的重構。在這個時代,每一位開發者、設計者、創業者,都是智能生态的共同締造者。”
希望在智譜的基座模型、多模态模型和MaaS平台的支持下,每個人都可以用AI表達想法、生成内容、構建應用,甚至創建一家AI原生公司。這是一場關于智能的共同創作,也是一場屬于開發者的未來革命。
免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。
審校:徐耀輝
