icon

GSM8K团队五年后再出手:25道博士级数学题,所有前沿模型正确率不到10%

据 1M AI News 监测,AI 数据标注公司 Surge AI 发布数学基准测试 Riemann-bench。Surge AI 五年前与 OpenAI 合作构建了 GSM8K,当时 GPT-3 系列在该测试上正确率不到 20%,如今 GSM8K 已成为行业入门级基准。Riemann-bench 瞄准的是另一个层级:25 道来自常春藤联盟数学教授、博士生和 IMO 奖牌得主自身研究中的问题,出题者本人往往需要数周才能独立解出,示例题目的预估解题时间为 40 至 50 小时。当前排名:Claude Opus 4.6 和 Gemini 3.1 Pro 并列第一,正确率均为 6%;Kimi K2.5 和 Gemini 3 Pro 并列第三,4%;DeepSeek v3.2 为 3%;GPT-5.2 和 Claude Opus 4.5 均为 2%。GPT-5.4 系列因 API 报错尚未完成测试。与 FrontierMath 等现有数学基准相比,Riemann-bench 有两个设计差异:一是不限制 Agent 的推理框架和 token 上限,允许模型自由使用工具和多步推理;二是采用双盲验证,每道题由两位独立领域专家从零解题确认答案。题库完全保密,防止模型针对性优化。
雷電財經提醒:请广大读者理性看待区块链,切实提高风险意识,警惕各类虚拟代币发行与炒作,站内所有内容仅系市场信息或相关方观点,不构成任何形式投资建议。如发现站内内容含敏感信息,可通过 举报 联系我们 ,我们会及时处理。
16:13 , 2026-03-25

GSM8K团队五年后再出手:25道博士级数学题,所有前沿模型正确率不到10%