icon

DeepSeek V4在Putnam-2025获120满分,形式化数学推理比肩Axiom

据动察 Beating 监测,DeepSeek V4 公布了两组形式化数学推理评测。Putnam(普特南竞赛)是北美最高水平本科数学竞赛。在实用场景(Practical Regime)下,V4-Flash-Max 在 Putnam-200 Pass@8 基准上拿到 81.00 分,使用开源工具 LeanExplore 和受限采样。作为对比,Seed-2.0-Prover 为 35.50,Gemini 3 Pro 和 Seed-1.5-Prover 均为 26.50。在前沿场景(Frontier Regime)下,V4 采用混合形式-非形式推理方案,先用 informal reasoning 生成候选自然语言解,经自我验证过滤后,再由 formal agent 在 Lean 中完成严格证明。V4 在 Putnam-2025 拿到 120/120 满分,与 Axiom 并列第一,高于 Seed-1.5-Prover 的 110/120 和 Aristotle 的 100/120。前沿场景使用了大规模计算扩展,实用场景结果更能反映常规部署能力。
雷電財經提醒:請廣大讀者理性看待區塊鏈,切實提高風險意識,警惕各類虛擬代幣發行與炒作,站內所有內容僅系市場信息或相關方觀點,不構成任何形式投資建議。如發現站內內容含敏感信息,可通過 舉報 聯繫我們 ,我們會及時處理。
13:41 , 2026-04-24

DeepSeek V4在Putnam-2025获120满分,形式化数学推理比肩Axiom