騰訊混元AI Infra團隊宣布對開源高性能LLM推理核心算子庫HPC-Ops進行重大升級,包含五大關鍵算子,旨在解決推理系統中的延遲、顯存和通信瓶頸,多項性能指標優于現有開源基線。
觀點網訊:6月11日,騰訊混元AI Infra團隊宣布,其開源的高性能大語言模型推理核心算子庫HPC-Ops迎來全面升級。本次更新包含五大關鍵算子,旨在進一步提升推理系統對動态業務負載的适應性,並滿足復雜精度與高性能融合算子的需求。
此次升級聚焦于解決實際工程瓶頸。在主流推理平台上,新版本有效緩解了Attention長尾延遲、顯存搬運開銷以及跨卡通信等關鍵問題,多項性能指標顯著優于現有的開源基線方案。
免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。
審校:
