更新後的R1模型在數學、編程與通用邏輯等多個基準測評中取得了當前國内所有模型中首屈一指的優異成績,並且在整體表現上已接近其他國際頂尖模型,如o3與Gemini-2.5-Pro。
觀點網訊:5月29日,深度求索官方發布,DeepSeek R1模型已完成小版本升級,當前版本為 DeepSeek-R1-0528。用戶通過官方網站、APP 或小程序進入對話界面後,開啟“深度思考”功能即可體驗最新版本。API 也已同步更新,調用方式不變。
公告顯示,DeepSeek-R1-0528仍然使用2024年12月所發布的DeepSeek V3 Base模型作為基座,但在後訓練過程中投入了更多算力,顯著提升了模型的思維深度與推理能力。
更新後的R1模型在數學、編程與通用邏輯等多個基準測評中取得了當前國内所有模型中首屈一指的優異成績,並且在整體表現上已接近其他國際頂尖模型,如o3與Gemini-2.5-Pro。
相較于舊版R1,新版模型在復雜推理任務中的表現有了顯著提升。例如在AIME 2025測試中,新版模型準确率由舊版的70%提升至87.5%。這一進步得益于模型在推理過程中的思維深度增強:在AIME 2025測試集上,舊版模型平均每題使用12K tokens,而新版模型平均每題使用23K tokens,表明其在解題過程中進行了更為詳盡和深入的思考。
同時,我們蒸餾DeepSeek-R1-0528的思維鍊後訓練Qwen3-8BBase,得到了DeepSeek-R1-0528-Qwen3-8B。該8B模型在數學測試AIME 2024中僅次于DeepSeek-R1-0528,超越Qwen3-8B(+10.0%),與Qwen3-235B相當。我們相信,DeepSeek-R1-0528的思維鍊對于學術界推理模型的研究和工業界針對小模型的開發都将具有重要意義。
其他能力方面,幻覺改善:新版DeepSeekR1針對“幻覺”問題進行了優化。與舊版相比,更新後的模型在改寫潤色、總結摘要、閱讀理解等場景中,幻覺率降低了45~50%左右,能夠有效地提供更為準确、可靠的結果。
創意寫作:在舊版R1的基礎上,更新後的R1模型針對議論文、小說、散文等文體進行了進一步優化,能夠輸出篇幅更長、結構内容更完整的長篇作品,同時呈現出更加貼近人類偏好的寫作風格。
本次R1更新後,官方網站、小程序、App端和API中的模型上下文長度仍為64K。如果用戶對更長的上下文長度有需求,可以通過其他第三方平台調用上下文長度為128K的開源版本R1-0528模型。
DeepSeek-R1-0528與之前的DeepSeek-R1使用同樣的base模型,僅改進了後訓練方法。私有化部署時只需要更新checkpoint和tokenizer_config.json(toolcalls相關變動)。模型參數為685B(其中14B為MTP層),開源版本上下文長度為128K(網頁端、App和API提供64K上下文)。
免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。
審校: