GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
gemmagooglespeculative-decodingopen-sourceинференс

Gemma 4 без MTP: как сообщество вернуло скорость, которую забрала Google

Google убрала Multi-Token Prediction из публичной версии Gemma 4. Инженеры Thoughtworks ответили EAGLE3 — и ускорили модель в 1,72 раза.

Влад МакаровВлад Макаровпроверил и опубликовал
6 мин чтения
Gemma 4 без MTP: как сообщество вернуло скорость, которую забрала Google

Google выпустила Gemma 4 второго апреля — и сообщество сразу заметило подвох. Модель тренировали с Multi-Token Prediction, технологией, которая позволяет предсказывать несколько токенов за раз и кратно ускоряет инференс. Но из публичных весов на Hugging Face эти компоненты были вырезаны. Google оставила MTP только в своём фреймворке LiteRT.

Что такое MTP и почему это важно

Стандартные языковые модели генерируют текст по одному токену. Каждый шаг — это загрузка всех весов модели из памяти GPU, и при этом вычислительные мощности простаивают. Multi-Token Prediction меняет подход: модель учится предсказывать сразу несколько следующих токенов, что позволяет использовать её как встроенный «черновик» для speculative decoding.

Speculative decoding работает по принципу «предложи и проверь». Маленькая модель-черновик быстро генерирует несколько токенов, а основная модель проверяет их за один проход. Если черновик угадал — все токены принимаются сразу. Результат тот же, скорость — в разы выше.

Google тренировала Gemma 4 именно с MTP-головами, но в публичную версию их не включила. Для пользователей это означает: модель работает в обычном авторегрессивном режиме, без ускорения. Вся инвестиция в MTP-обучение — впустую, если вы не в экосистеме Google.

Как Thoughtworks всё починили

Инженеры из Thoughtworks не стали ждать. За четыре дня после релиза они натренировали EAGLE3 draft head — лёгкую «голову» для speculative decoding, совместимую с Gemma 4 31B. Результат: ускорение инференса в 1,72 раза без изменения выходных данных модели.

Задача оказалась сложнее, чем обычно. Gemma 4 использует гибридную архитектуру внимания: часть слоёв работает с локальным скользящим окном, часть — с полным контекстом. Это ломает все существующие пайплайны для speculative decoding, потому что KV-кэш устроен по-разному для разных типов слоёв.

Команда столкнулась с тремя багами в стеке обслуживания и утечкой памяти в двойном KV-кэше. Всё это пришлось исправить, прежде чем EAGLE3 заработал корректно.

МетрикаБез EAGLE3С EAGLE3
Скорость генерации1x (базовая)1,72x
Качество выходаИдентичноИдентично
Время обучения draft head4 дня

Что это значит для open-source

История с Gemma 4 MTP — не просто технический курьёз. Это иллюстрация растущего напряжения между «открытыми весами» и реально открытым AI. Google формально выпустила модель под Apache 2.0, но убрала ключевой компонент, который делает её по-настоящему конкурентоспособной на пользовательском железе.

Для тех, кто запускает модели локально, скорость инференса — это не абстракция. Это разница между практичным инструментом и академическим экспериментом. Gemma 4 31B и без ускорения показывает впечатляющие результаты — третье место в текстовом рейтинге LMArena, конкуренция с моделями в разы крупнее. Но без speculative decoding запускать 31B-модель на потребительском GPU мучительно медленно.

Ответ Thoughtworks показывает, что open-source сообщество достаточно зрелое, чтобы компенсировать такие решения корпораций. Но вопрос остаётся: почему пользователям вообще приходится это делать?

Похожие новости

Листайте вниз

для загрузки следующей статьи