icon

RL微调让4B模型金融问答超越235B:Snorkel AI开源FinQA训练环境

据 1M AI News 监测,Snorkel AI 发布 FinQA,一个基于真实 SEC 10-K 财务文件构建的强化学习训练环境,现已开源于 Meta PyTorch 与 Hugging Face 联合维护的 OpenEnv 平台。FinQA 覆盖 22 家上市公司(包括 Alphabet、亚马逊、苹果、美国银行、波音)的 290 道专家标注财务问答,向 Agent 提供 4 个 MCP 工具:列出可用财务表、获取表结构、执行 SQL 查询、提交答案。SQL 强制要求过滤条件且禁止 `SELECT *`,迫使 Agent 只取所需数据,而非倾倒整张表。Snorkel AI 与加州大学伯克利分校 rLLM 团队合作,用 FinQA 对 Qwen3-4B 进行强化学习微调,结果在金融问答基准 SnorkelFinance 上得分 59.7%,超过同系列 Qwen3-235B(51.37%),参数量约为后者的 1/60,推理成本降约 90%。关键发现:大模型能推理,但会产生幻觉列名、无视 SQL 约束;RL 训练后的小模型反而能精准调用工具,「工具纪律」而非规模才是瓶颈。FinQA 是 Snorkel AI 在 OpenEnv 发布的首个开源环境,后续将推出覆盖医疗、保险、法律等行业的多轮次企业环境。
雷電財經提醒:请广大读者理性看待区块链,切实提高风险意识,警惕各类虚拟代币发行与炒作,站内所有内容仅系市场信息或相关方观点,不构成任何形式投资建议。如发现站内内容含敏感信息,可通过 举报 联系我们 ,我们会及时处理。
14:35 , 2026-03-31

RL微调让4B模型金融问答超越235B:Snorkel AI开源FinQA训练环境