智譜披露GLM-5底層基建進展修復方案被SGLang社區采納

觀點網 •

2026-04-30 09:11

4月30日，智譜發布技術博客首次繫統披露GLM-5繫列模型在超大規模Coding Agent場景下的底層推理技術突破，LayerSplit方案使吞吐量最高提升132%。

觀點網訊：4月30日，智譜發布技術博客《Scaling Pain：超大規模Coding Agent推理實踐》，首次繫統披露GLM-5繫列模型在超大規模Coding Agent調用場景下的底層推理技術突破。

據介紹，針對Context Parallel策略中的KV Cache冗余存儲問題，智譜設計實現了KV Cache分層存儲方案LayerSplit，每張GPU僅持有部分層的KV Cache，通過廣播機制完成協同計算。在Cache命中率90%條件下，40K至120K請求長度區間内，繫統吞吐量提升10%至132%，且上下文越長收益越顯著。

信息顯示，智譜團隊不僅在自有推理鏈路中定位並修復了PD分離架構下的KV Cache跨節點復用競态，更在開源推理框架SGLang源代碼層面修復了HiCache模塊的加載時序缺失問題，修復方案已被SGLang開源社區采納。

免責聲明：本文内容與數據由觀點根據公開信息整理，不構成投資建議，使用前請核實。

審校：

致信編輯打印

相關話題讨論

我要提問...

全時數據

專欄在線投稿+

王韶：“十五五”時期房地産在經...王韶

夏磊：從成交結構看購房者行為變化夏磊

馮毅成：關山華科闆塊憑科創生态...馮毅成

楊光華：四中全會，10個字定調房地産楊光華

蔡記｜行攝希臘· 克里特島的迷宮蔡穗聲

智譜披露GLM-5底層基建進展 修復方案被SGLang社區采納

智譜披露GLM-5底層基建進展修復方案被SGLang社區采納