更新後的文章進一步詳細展示了LLM(大語言模型)的推理能力可以通過純粹的強化學習(RL)來訓練。
觀點網訊:1月8日消息,DeepSeek近日更新了關于R1模型的論文,文章篇幅從原本的約20頁擴展至86頁。
更新後的文章進一步詳細展示了LLM(大語言模型)的推理能力可以通過純粹的強化學習(RL)來訓練,且訓練出的模型在數學、編碼競賽和STEM領域等可驗證任務上取得了優異的成績。
同時,該方式在訓練成本上也極具競争力,DeepSeek-R1-Zero的訓練僅耗時198小時。
免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。
審校:
