icon

MiniMax M3正式入驻DeepSWE官方榜单:通过率升至20.4%,超越GLM与小米Mimo

据动察 Beating 监测,专注于评估大模型解决长程软件工程任务能力的基准平台 DeepSWE 发布最新榜单更新,正式将 MiniMax 编码模型 MiniMax M3 纳入官方评测。在 113 个真实开源任务的评测中,MiniMax M3 录得了 20.4% 的 Pass@1 通过率。尽管这一表现仍落后于月之暗面的 Kimi-k2.6(23.9%),但已成功超越小米的 mimo-v2.5-pro(19.5%)、智谱的 GLM-5.1(17.5%)以及谷歌 Gemini 3.1 Pro(9.7%)和 DeepSeek V4 Pro(7.5%)。相比此前(6 月 2 日)独立开发者 @bleysg 发布的独立评测结果,MiniMax M3 的表现有了显著的进步。在此前的独立实测中,在 90 分钟常规时限下 M3 的严格通过率仅为 13.3%(15/113),在当时公布的模型表现中落后于 Kimi 和 GLM。此次官方测试中 20.4% 的通过率显著提升,主要得益于 MiniMax 在 6 月 3 日部署的重大推理升级。该升级修复了偶发生成异常 Token 的问题并优化了长上下文缓存效率,使模型在长程编程中的代码精度明显改善,同时也拉近了其与头部模型的差距。值得注意的是,如果看 Pass@4(允许尝试 4 次的通过率),MiniMax M3 达到了 48.7%,与 Kimi-k2.6 并列,显著高于 GLM-5.1 的 38.9%。然而,高昂的资源和计算开销依然是 MiniMax M3 的短板。在官方基准测试中,M3 解决单个任务的 agent 步骤中位数高达 311 步,输出 Token 中位数达 9.1 万个,单次任务平均成本中位数达 5.04 美元。与之相比,Kimi-k2.6 解决单个任务的中位数步骤仅为 136.5 步,成本中位数为 2.70 美元;而小米 mimo-v2.5-pro 的步骤中位数仅为 114.5 步,成本中位数更低至 1.68 美元。数据表明,尽管 M3 在解决问题的上限和通过率上表现不俗,但在计算效率和推理成本优化上,较之国内其他主流模型仍有较大提升空间。
雷電財經提醒:請廣大讀者理性看待區塊鏈,切實提高風險意識,警惕各類虛擬代幣發行與炒作,站內所有內容僅系市場信息或相關方觀點,不構成任何形式投資建議。如發現站內內容含敏感信息,可通過 舉報 聯繫我們 ,我們會及時處理。
16:22 , 2026-06-08

MiniMax M3正式入驻DeepSWE官方榜单:通过率升至20.4%,超越GLM与小米Mimo