MiniMax宣布開源面向Coding Agent的新評測集

观点网

2026-01-14 12:12

  • MiniMax開源OctoCodingBench評測集,測試顯示主流模型Check級準确率超80%,Instance級成功率僅10%-30%,多輪指令遵循能力衰減明顯,開源模型正加速逼近閉源模型。

    觀點網訊:1月14日,MiniMax宣布開源面向Coding Agent的評測集OctoCodingBench,並同步披露基于該集對國内外十余款開源及閉源大模型的測評結果。根據公開資料整理,實驗覆蓋代碼生成、多輪對話、指令遵循等維度,樣本規模超1萬條。

    測評發現,所有受測模型在細粒度Check-level指標上準确率均突破80%,但端到端Instance-level成功率僅10%-30%,暴露出長鍊路任務穩定性不足;随着對話輪次增加,模型指令遵循率呈階梯式下降,第五輪後平均衰減約25%。MiniMax指出,目前尚無模型達到生産級可靠性,過程合規與安全性仍屬盲區,呼籲行業共建更嚴苛的代碼智能評測標準。

    免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。

    審校:楊曉敏



    相關話題讨論



    你可能感興趣的話題

    科技

    AI