據了解,新的Qwen3-Next模型架構旨在更好地處理大量信息,同時減少訓練過程中和訓練後的計算成本。
觀點網訊:9月12日消息,阿里巴巴旗下通義千問發布了下一代基礎模型架構Qwen3-Next,並開源了基于該架構的Qwen3-Next-80B-A3B繫列模型。
據了解,新的Qwen3-Next模型架構旨在更好地處理大量信息,同時減少訓練過程中和訓練後的計算成本。
基于Qwen3-Next的模型結構,阿里訓練了Qwen3-Next-80B-A3B-Base模型,該模型擁有800億參數僅激活30億參數。該Base模型實現了與Qwen3-32B dense模型相近甚至略好的性能。
免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。
審校:
