Gemma 4 получила аудио — мультимодальность приходит в open-source

Google выпустила Gemma 4 с поддержкой аудио в моделях E2B и E4B. Аудиоэнкодер на 50% меньше, чем у Gemma 3N, и работает на телефоне.

Когда Google выпустила Gemma 4 второго апреля, основное внимание досталось флагманским моделям — 31B Dense занял третье место среди open-source моделей на Arena AI, 26B MoE — шестое. Но для разработчиков, строящих продукты на устройствах пользователей, главная новость была в мелком шрифте: модели E2B и E4B получили нативную поддержку аудиовхода.

Аудио в open-source — почему это важно

До Gemma 4 ситуация с аудио в open-source моделях выглядела просто: его практически не было. Whisper от OpenAI умеет транскрибировать, но не рассуждать над услышанным. Gemini Nano работает с аудио, но привязан к устройствам Pixel через AICore API. Если вы хотели модель, которая принимает голос и выдаёт осмысленный ответ — а не просто текстовую расшифровку — выбирать было не из чего.

Gemma 4 E2B и E4B меняют эту картину. Модель принимает аудио на входе, преобразует его через встроенный аудиоэнкодер в эмбеддинги и обрабатывает наравне с текстом. Можно задать вопрос голосом и получить рассуждение в ответ. Можно скормить подкаст и попросить выделить ключевые идеи. Всё это — локально, без отправки данных в облако.

Что внутри

Аудиоэнкодер в Gemma 4 на 50% компактнее, чем в предшественнице Gemma 3N. Google добилась этого за счёт оптимизации архитектуры — меньше слоёв, более узкие hidden dimensions, эффективные варианты внимания.

Ключевой параметр — длительность фрейма в 40 мс. При такой настройке модель генерирует 25 фреймов в секунду аудио вместо 100 при 10-мс фрейме. Это существенно снижает количество токенов, которые нужно обработать, и напрямую влияет на задержку при инференсе. Для edge-устройств с ограниченной памятью и вычислительной мощностью — критический выигрыш.

При этом 40 мс — достаточно для захвата фонемных границ. Типичная фонема в английском длится 40–100 мс, так что потеря точности минимальна.

Четыре размера для разных задач

Модель	Параметры	Контекст	Аудио	Назначение
E2B	~2B	128K	да	Смартфоны, встраиваемые системы
E4B	~4B	128K	да	Ноутбуки, edge-серверы
26B MoE	26B (4B активных)	256K	нет	Разработка, серверы
31B Dense	31B	256K	нет	Максимальное качество

E2B — для самых ограниченных сценариев: голосовые команды, короткая транскрипция, простые вопросы. E4B удваивает количество параметров и заметно лучше справляется со сложными запросами и многоходовыми диалогами. Оба используют один и тот же аудиоэнкодер — разница в языковой модели.

Масштаб экосистемы

Цифры впечатляют: с момента запуска первой Gemma разработчики скачали модели семейства более 400 миллионов раз. В «Gemmaverse» — экосистеме файнтюнов и адаптаций — уже больше 100 000 вариантов. Gemma 4 распространяется под лицензией Apache 2.0, что означает полную свободу коммерческого использования.

Поддержка 140+ языков, нативный function calling и структурированный JSON-вывод делают Gemma 4 готовой платформой для агентных приложений. Это не исследовательский проект — это инструмент для продакшна.

Как попробовать

Модели доступны на Hugging Face и через Google AI Studio. Для запуска подходят llama.cpp, ONNX Runtime и MediaPipe. E2B можно запустить прямо на современном Android-смартфоне, E4B — на ноутбуке с дискретной GPU.

Итог

Gemma 4 делает аудио-мультимодальность доступной для open-source экосистемы впервые на практическом уровне. Модели E2B и E4B — это не демонстрация возможностей, а рабочие инструменты для edge-развёртывания. Для разработчиков, которым нужен голосовой ввод без облачных зависимостей, выбор стал очевиднее.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Gemma 4 получила аудио — мультимодальность приходит в open-source

Аудио в open-source — почему это важно

Что внутри

Четыре размера для разных задач

Масштаб экосистемы

Как попробовать

Итог

Похожие новости

Gemma 4: Google открывает свои лучшие модели под Apache 2.0

Gemini 3.1 Ultra: Google вернулся в гонку фронтирных моделей

Gemini 3.1 Pro: вдвое умнее предшественника