4月3日,沐曦股份與上海人工智能實驗室聯合發布高性能GPU算子生成繫統Kernel-Smith,該繫統創新融合進化智能體與後訓練範式,已在實際場景中應用並加速主流推理引擎。
觀點網訊:近日,上海人工智能實驗室和沐曦股份聯合發布了高性能GPU算子生成繫統—— Kernel-Smith。
據悉,Kernel-Smith創新性地将“穩定評估驅動的進化智能體”與“面向進化的後訓練範式”深度融合,依托上海人工智能實驗室書生大模型Intern-S1-Pro的基座能力進行深度定制化訓練,讓大模型真正化身為“算子優化大師”。
在雙方的合作中,沐曦團隊全程深度參與。聯合創始人、CTO兼首席軟件架構師楊建、研發副總裁黃向軍、AI部門的武亞光、董華楠、謝佳形均參與了該項目並做出貢獻。
沐曦自研軟件棧MXMACA展現出了深度兼容能力。在MXMACA後端測試中,Kernel-Smith 表現出色。研究團隊在四類常用算子上對比了不同模型生成高性能 MXMACA 算子的能力,結果顯示,Kernel-Smith-MACA-30B 的平均加速比超過了 DeepSeek-v3.2 和 Qwen3-235B-2507 等大參數量的開源模型,而 Kernel-Smith-MACA-235B 取得了進一步性能提升,驗證了 Kernel-Smith 框架支持異構平台的能力。
目前,Kernel-Smith 自動生成的高性能算子已在實際場景中得到應用:不僅加速了 DeepSeek 新架構 Engram,並合入 DLBlas;還落地主流生産級推理引擎 SGLang 和 LMDeploy,實現了大模型自動生成算子從實驗室受控評估,到前沿模型研發與生産級部署的雙重跨越。
免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。
審校:
