icon

最高提速3倍且零損耗,谷歌開源Gemma4全系MTP投機解碼模型

據 動察 Beating 監測,谷歌發佈並開源瞭 Gemma 4 系列的多 token 預測(MTP)草稿模型。這是一個采用投機解碼(speculative decoding)架構的輕量級輔助模型,能在主模型保留最終驗證權的基礎上,實現最高 3 倍的推理提速,且完全不損耗輸出質量和邏輯推理能力。標準的大語言模型每次隻能生成一個 token,容易受到顯存帶寬瓶頸限制並造成算力閑置。MTP 方案讓輕量級的草稿模型利用閑置算力,提前一次性預測多個未來 token,再交由 31B 等重型目標模型並行驗證。若目標模型同意草稿,就會一次性接收整段序列。為進一步提效,草稿模型直接共享瞭目標模型的激活狀態和 KV 緩存(存儲歷史上下文以避免重復計算);針對端側的 E2B 和 E4B 模型,團隊還在嵌入層引入瞭聚類技術。目前,MTP 模型已采用與 Gemma 4 相同的 Apache 2.0 協議全面開源,並原生支持 vLLM、SGLang 和 Ollama 等主流推理框架。這次提速優化顯著降低瞭應用門檻,使開發者能在普通消費級顯卡上流暢運行 26B MoE 和 31B 稠密模型,也能在移動設備上以更低的功耗支撐實時 AI 交互。
雷電財經提醒:請廣大讀者理性看待區塊鏈,切實提高風險意識,警惕各類虛擬代幣發行與炒作,站內所有內容僅系市場信息或相關方觀點,不構成任何形式投資建議。如發現站內內容含敏感信息,可通過 舉報 聯繫我們 ,我們會及時處理。
09:40 , 2026-05-06

最高提速3倍且零損耗,谷歌開源Gemma4全系MTP投機解碼模型