該模型從量化算子、訓練算法到全鏈路框架,均在華為升騰上原生完成。在推理階段,BitCPM-CANN可釋放約6倍顯存紅利,同時将模型能力保留率維持在90%至97.2%。
觀點網訊:5月25日,面壁智能宣布聯合清華大學正式開源中國首個基于升騰訓練的低比特端側大模型BitCPM-CANN。
據介紹,該模型從量化算子、訓練算法到全鏈路框架,均在華為升騰上原生完成。在推理階段,BitCPM-CANN可釋放約6倍顯存紅利,同時将模型能力保留率維持在90%至97.2%。
BitCPM-CANN包含0.5B、1B、3B、8B四個模型尺寸,與同尺寸MiniCPM4全精度家族逐項對照評測,性能表現優異。該模型采用量化感知訓練技術路線,從訓練初始階段就讓模型主動學習用1.58-bit的三值權重承載知識。
此前,BitCPM-CANN已在華為鲲鵬升騰開發者大會上完成首次技術亮相,今日正式将其全系列模型向全社會開放。
免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。
審校:
