最高提速3倍且零损耗，谷歌开源Gemma4全系MTP投机解码模型_雷電財經

据动察 Beating 监测，谷歌发布并开源了 Gemma 4 系列的多 token 预测（MTP）草稿模型。这是一个采用投机解码（speculative decoding）架构的轻量级辅助模型，能在主模型保留最终验证权的基础上，实现最高 3 倍的推理提速，且完全不损耗输出质量和逻辑推理能力。标准的大语言模型每次只能生成一个 token，容易受到显存带宽瓶颈限制并造成算力闲置。MTP 方案让轻量级的草稿模型利用闲置算力，提前一次性预测多个未来 token，再交由 31B 等重型目标模型并行验证。若目标模型同意草稿，就会一次性接收整段序列。为进一步提效，草稿模型直接共享了目标模型的激活状态和 KV 缓存（存储历史上下文以避免重复计算）；针对端侧的 E2B 和 E4B 模型，团队还在嵌入层引入了聚类技术。目前，MTP 模型已采用与 Gemma 4 相同的 Apache 2.0 协议全面开源，并原生支持 vLLM、SGLang 和 Ollama 等主流推理框架。这次提速优化显著降低了应用门槛，使开发者能在普通消费级显卡上流畅运行 26B MoE 和 31B 稠密模型，也能在移动设备上以更低的功耗支撑实时 AI 交互。

最高提速3倍且零损耗，谷歌开源Gemma4全系MTP投机解码模型

關聯標籤

市場行情 (24h)

恐懼貪婪指數

最高提速3倍且零损耗，谷歌开源Gemma4全系MTP投机解码模型