谷歌TurboQuant：3bit量化KV缓存无精度损失，推理最高快8倍

2026-03-25 , 11:12

据 1M AI News 监测，谷歌研究院发布量化压缩算法 TurboQuant，可将大语言模型的 KV 缓存压缩至 3 bit，内存占用缩减至少 6 倍，无需训练或微调，不损失模型精度。4 bit 模式下，在英伟达 H100 GPU 上计算注意力的速度较 32 bit 未量化基线提升最高 8 倍。研究团队在 LongBench、Needle In A Haystack、ZeroSCROLLS 等长上下文基准上用 Gemma 和 Mistral 模型验证，TurboQuant 在所有测试中均达到最优表现。该算法由两个子算法组成：PolarQuant 通过极坐标变换消除传统量化方法的内存开销，QJL 仅用 1 bit 校正残余误差。该研究由谷歌研究院 Amir Zandieh 和副总裁兼 Google Fellow Vahab Mirrokni 主导，与韩国 KAIST 和纽约大学合作完成，将在 ICLR 2026 上发表。谷歌表示该技术的主要应用之一是解决 Gemini 等模型的 KV 缓存瓶颈。

雷電財經提醒：请广大读者理性看待区块链，切实提高风险意识，警惕各类虚拟代币发行与炒作，站内所有内容仅系市场信息或相关方观点，不构成任何形式投资建议。如发现站内内容含敏感信息，可通过举报或联系我们，我们会及时处理。

11:12 , 2026-03-25