icon

最高提速3倍且零损耗,谷歌开源Gemma4全系MTP投机解码模型

据 动察 Beating 监测,谷歌发布并开源了 Gemma 4 系列的多 token 预测(MTP)草稿模型。这是一个采用投机解码(speculative decoding)架构的轻量级辅助模型,能在主模型保留最终验证权的基础上,实现最高 3 倍的推理提速,且完全不损耗输出质量和逻辑推理能力。标准的大语言模型每次只能生成一个 token,容易受到显存带宽瓶颈限制并造成算力闲置。MTP 方案让轻量级的草稿模型利用闲置算力,提前一次性预测多个未来 token,再交由 31B 等重型目标模型并行验证。若目标模型同意草稿,就会一次性接收整段序列。为进一步提效,草稿模型直接共享了目标模型的激活状态和 KV 缓存(存储历史上下文以避免重复计算);针对端侧的 E2B 和 E4B 模型,团队还在嵌入层引入了聚类技术。目前,MTP 模型已采用与 Gemma 4 相同的 Apache 2.0 协议全面开源,并原生支持 vLLM、SGLang 和 Ollama 等主流推理框架。这次提速优化显著降低了应用门槛,使开发者能在普通消费级显卡上流畅运行 26B MoE 和 31B 稠密模型,也能在移动设备上以更低的功耗支撑实时 AI 交互。
雷電財經提醒:請廣大讀者理性看待區塊鏈,切實提高風險意識,警惕各類虛擬代幣發行與炒作,站內所有內容僅系市場信息或相關方觀點,不構成任何形式投資建議。如發現站內內容含敏感信息,可通過 舉報 聯繫我們 ,我們會及時處理。
09:45 , 2026-05-06

最高提速3倍且零损耗,谷歌开源Gemma4全系MTP投机解码模型