紅杉中國正式開源AI基準測試xbench評測集

观点网

2025-06-18 09:36

  • 紅杉中國6月18日開源AI基準測試工具xbench的兩個評測集xbench-ScienceQA和xbench-DeepSearch,采用動态更新機制和黑白盒評估方法,旨在解決大模型開發中的過拟合問題。該工具将為AI開發者提供長期有效的性能基準支持。

    觀點網訊:6月18日,紅杉中國在中國正式開源其AI基準測試工具xbench的兩個評測集xbench-ScienceQA和xbench-DeepSearch,旨在服務大模型和AI Agent開發者,避免靜态評測集常見的過拟合問題,确保工具長期有效。

    該開源舉措将基于AI發展動态更新評測集,采用“黑白盒”機制提升模型評估準确性。紅杉中國表示,這有助于推動AI技術創新,並為開發者提供可靠基準支持。

    免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。

    審校:楊曉敏



    相關話題讨論



    你可能感興趣的話題

    AI

    科技