MiniMax M3正式入驻DeepSWE官方榜单：通过率升至20.4%，超越GLM与小米Mimo_雷電財經

据动察 Beating 监测，专注于评估大模型解决长程软件工程任务能力的基准平台 DeepSWE 发布最新榜单更新，正式将 MiniMax 编码模型 MiniMax M3 纳入官方评测。在 113 个真实开源任务的评测中，MiniMax M3 录得了 20.4% 的 Pass@1 通过率。尽管这一表现仍落后于月之暗面的 Kimi-k2.6（23.9%），但已成功超越小米的 mimo-v2.5-pro（19.5%）、智谱的 GLM-5.1（17.5%）以及谷歌 Gemini 3.1 Pro（9.7%）和 DeepSeek V4 Pro（7.5%）。相比此前（6 月 2 日）独立开发者 @bleysg 发布的独立评测结果，MiniMax M3 的表现有了显著的进步。在此前的独立实测中，在 90 分钟常规时限下 M3 的严格通过率仅为 13.3%（15/113），在当时公布的模型表现中落后于 Kimi 和 GLM。此次官方测试中 20.4% 的通过率显著提升，主要得益于 MiniMax 在 6 月 3 日部署的重大推理升级。该升级修复了偶发生成异常 Token 的问题并优化了长上下文缓存效率，使模型在长程编程中的代码精度明显改善，同时也拉近了其与头部模型的差距。值得注意的是，如果看 Pass@4（允许尝试 4 次的通过率），MiniMax M3 达到了 48.7%，与 Kimi-k2.6 并列，显著高于 GLM-5.1 的 38.9%。然而，高昂的资源和计算开销依然是 MiniMax M3 的短板。在官方基准测试中，M3 解决单个任务的 agent 步骤中位数高达 311 步，输出 Token 中位数达 9.1 万个，单次任务平均成本中位数达 5.04 美元。与之相比，Kimi-k2.6 解决单个任务的中位数步骤仅为 136.5 步，成本中位数为 2.70 美元；而小米 mimo-v2.5-pro 的步骤中位数仅为 114.5 步，成本中位数更低至 1.68 美元。数据表明，尽管 M3 在解决问题的上限和通过率上表现不俗，但在计算效率和推理成本优化上，较之国内其他主流模型仍有较大提升空间。

MiniMax M3正式入驻DeepSWE官方榜单：通过率升至20.4%，超越GLM与小米Mimo

關聯標籤

市場行情 (24h)

恐懼貪婪指數

MiniMax M3正式入驻DeepSWE官方榜单：通过率升至20.4%，超越GLM与小米Mimo