GSM8K团队五年后再出手：25道博士级数学题，所有前沿模型正确率不到10%_雷電財經

据 1M AI News 监测，AI 数据标注公司 Surge AI 发布数学基准测试 Riemann-bench。Surge AI 五年前与 OpenAI 合作构建了 GSM8K，当时 GPT-3 系列在该测试上正确率不到 20%，如今 GSM8K 已成为行业入门级基准。Riemann-bench 瞄准的是另一个层级：25 道来自常春藤联盟数学教授、博士生和 IMO 奖牌得主自身研究中的问题，出题者本人往往需要数周才能独立解出，示例题目的预估解题时间为 40 至 50 小时。当前排名：Claude Opus 4.6 和 Gemini 3.1 Pro 并列第一，正确率均为 6%；Kimi K2.5 和 Gemini 3 Pro 并列第三，4%；DeepSeek v3.2 为 3%；GPT-5.2 和 Claude Opus 4.5 均为 2%。GPT-5.4 系列因 API 报错尚未完成测试。与 FrontierMath 等现有数学基准相比，Riemann-bench 有两个设计差异：一是不限制 Agent 的推理框架和 token 上限，允许模型自由使用工具和多步推理；二是采用双盲验证，每道题由两位独立领域专家从零解题确认答案。题库完全保密，防止模型针对性优化。

GSM8K团队五年后再出手：25道博士级数学题，所有前沿模型正确率不到10%

关联标签

市场行情 (24h)

恐惧贪婪指数

GSM8K团队五年后再出手：25道博士级数学题，所有前沿模型正确率不到10%