最高提速3倍且零損耗，谷歌開源Gemma4全系MTP投機解碼模型_雷電財經

據動察 Beating 監測，谷歌發佈並開源瞭 Gemma 4 系列的多 token 預測（MTP）草稿模型。這是一個采用投機解碼（speculative decoding）架構的輕量級輔助模型，能在主模型保留最終驗證權的基礎上，實現最高 3 倍的推理提速，且完全不損耗輸出質量和邏輯推理能力。標準的大語言模型每次隻能生成一個 token，容易受到顯存帶寬瓶頸限制並造成算力閑置。MTP 方案讓輕量級的草稿模型利用閑置算力，提前一次性預測多個未來 token，再交由 31B 等重型目標模型並行驗證。若目標模型同意草稿，就會一次性接收整段序列。為進一步提效，草稿模型直接共享瞭目標模型的激活狀態和 KV 緩存（存儲歷史上下文以避免重復計算）；針對端側的 E2B 和 E4B 模型，團隊還在嵌入層引入瞭聚類技術。目前，MTP 模型已采用與 Gemma 4 相同的 Apache 2.0 協議全面開源，並原生支持 vLLM、SGLang 和 Ollama 等主流推理框架。這次提速優化顯著降低瞭應用門檻，使開發者能在普通消費級顯卡上流暢運行 26B MoE 和 31B 稠密模型，也能在移動設備上以更低的功耗支撐實時 AI 交互。

最高提速3倍且零損耗，谷歌開源Gemma4全系MTP投機解碼模型

關聯標籤

市場行情 (24h)

恐懼貪婪指數

最高提速3倍且零損耗，谷歌開源Gemma4全系MTP投機解碼模型