MiniMax宣布開源面向Coding Agent的新評測集

观点网 •

2026-01-14 12:12

MiniMax開源OctoCodingBench評測集，測試顯示主流模型Check級準确率超80%，Instance級成功率僅10%-30%，多輪指令遵循能力衰減明顯，開源模型正加速逼近閉源模型。

觀點網訊：1月14日，MiniMax宣布開源面向Coding Agent的評測集OctoCodingBench，並同步披露基于該集對國内外十余款開源及閉源大模型的測評結果。根據公開資料整理，實驗覆蓋代碼生成、多輪對話、指令遵循等維度，樣本規模超1萬條。

測評發現，所有受測模型在細粒度Check-level指標上準确率均突破80%，但端到端Instance-level成功率僅10%-30%，暴露出長鍊路任務穩定性不足；随着對話輪次增加，模型指令遵循率呈階梯式下降，第五輪後平均衰減約25%。MiniMax指出，目前尚無模型達到生産級可靠性，過程合規與安全性仍屬盲區，呼籲行業共建更嚴苛的代碼智能評測標準。

免責聲明：本文内容與數據由觀點根據公開信息整理，不構成投資建議，使用前請核實。

審校：楊曉敏

致信編輯打印

相關話題讨論

我要提問...

全時數據

專欄在線投稿+

王韶：高質量發展——二十屆四中...王韶

夏磊：從成交結構看購房者行為變化夏磊

馮毅成：關山華科闆塊憑科創生态...馮毅成

楊光華：四中全會，10個字定調房地産楊光華

蔡記｜行攝希臘· 克里特島的迷宮蔡穗聲