智譜披露GLM-5底層基建進展 修復方案被SGLang社區采納

觀點網

2026-04-30 09:11

  • 4月30日,智譜發布技術博客首次繫統披露GLM-5繫列模型在超大規模Coding Agent場景下的底層推理技術突破,LayerSplit方案使吞吐量最高提升132%。

    觀點網訊:4月30日,智譜發布技術博客《Scaling Pain:超大規模Coding Agent推理實踐》,首次繫統披露GLM-5繫列模型在超大規模Coding Agent調用場景下的底層推理技術突破。

    據介紹,針對Context Parallel策略中的KV Cache冗余存儲問題,智譜設計實現了KV Cache分層存儲方案LayerSplit,每張GPU僅持有部分層的KV Cache,通過廣播機制完成協同計算。在Cache命中率90%條件下,40K至120K請求長度區間内,繫統吞吐量提升10%至132%,且上下文越長收益越顯著。

    信息顯示,智譜團隊不僅在自有推理鏈路中定位並修復了PD分離架構下的KV Cache跨節點復用競态,更在開源推理框架SGLang源代碼層面修復了HiCache模塊的加載時序缺失問題,修復方案已被SGLang開源社區采納。

    免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。

    審校:



    相關話題讨論



    你可能感興趣的話題

    AI

    科技