OLMo Hybrid от Ai2: гибридная архитектура с линейной рекуррентностью бьёт трансформеры по эффективности

Allen Institute for AI выпустил OLMo Hybrid 7B — полностью открытую модель с Gated DeltaNet вместо 75% слоёв внимания. Та же точность при вдвое меньшем числе токенов обучения.

Allen Institute for AI (Ai2) выпустил OLMo Hybrid 7B — полностью открытую языковую модель с принципиально другой архитектурой. Вместо привычного трансформера 75% слоёв внимания заменены на линейные рекуррентные блоки Gated DeltaNet. Результат впечатляет: модель достигает того же уровня точности, что и OLMo 3 7B, используя вдвое меньше токенов обучения.

Почему трансформеры не сидят на оптимальной границе

Исследователи из Ai2 исходили из теоретической предпосылки: чистые трансформеры доказуемо ограничены в задачах, требующих отслеживания состояния последовательности. Рекуррентные сети справляются с этим лучше, но уступают трансформерам в задачах точного извлечения информации (recall). Логичный вывод — объединить оба подхода и получить модель, которая решает обе задачи.

Именно так устроен OLMo Hybrid: за основу взята архитектура OLMo 3 7B, но стандартные слои внимания заменены по схеме 3:1 — три блока Gated DeltaNet (GDN) на каждый полноценный слой многоголового внимания. Слои GDN обеспечивают эффективное отслеживание состояния и работают линейно по длине контекста; редкие слои трансформера точечно «достают» нужные факты из длинного контекста.

Ключевое отличие GDN от оригинального DeltaNet — добавление коэффициента затухания αt ∈ (0, 1) при обновлении состояния. Технически небольшое изменение, но с серьёзными последствиями для выразительности: исследователи показали, что гибридные модели захватывают класс сложности NC1, тогда как чистые трансформеры ограничены TC0. На практике это означает, что гибрид может выражать паттерны, недоступные трансформеру в принципе — независимо от масштаба обучения.

Обучение на Blackwell B200 с открытыми логами

Одна из особенностей релиза — беспрецедентная прозрачность инфраструктуры. Ai2 совместно с Lambda обучали OLMo Hybrid 7B на 512 GPU, начав на H100, а примерно на середине обучения перейдя на HGX B200 — тем самым OLMo Hybrid стал одним из первых полностью открытых моделей, обученных на GPU Blackwell.

Общий объём обучения составил 6 триллионов токенов с использованием улучшенного датасета от OLMo 3 32B. Команда публикует не только веса, но и полные логи обучения, код и все метрики — в духе академической открытости, которой Ai2 придерживается с первых версий OLMo.

Цифры, которые трудно оспорить

На бенчмарке MMLU OLMo Hybrid достигает того же результата, что OLMo 3 7B — но с 49% меньшим числом токенов обучения. Это примерно двукратная эффективность по данным: либо вы получаете ту же модель за полцены, либо за ту же цену — заметно лучшую.

Наиболее сильный прирост заметен в STEM и программировании — именно тех категориях, где требуется алгоритмическое рассуждение и отслеживание состояния. Гуманитарные бенчмарки тоже улучшились, но скромнее.

Впечатляют и результаты по длинному контексту: на RULER при 64k токенах OLMo Hybrid с DRoPE набирает 85,0 баллов против 70,9 у OLMo 3 7B с YaRN. Даже если использовать одинаковый метод экстраполяции позиций (YaRN), гибридная архитектура выигрывает — 76,9 против 70,9.

Ключевые характеристики:

Параметры: 7B, полностью открытые веса
Архитектура: 3:1, Gated DeltaNet + трансформерное внимание
Обучено на: 6 трлн токенов (HSDP, bfloat16)
RULER @ 64k: 85,0 (против 70,9 у OLMo 3 7B)
Эффективность данных на MMLU: +2x
Лицензия: Apache 2.0

Место в более широкой тенденции

OLMo Hybrid — не единственная гибридная модель, появившаяся в последнее время: Mamba, Nemotron 3 Super, Qwen-Next и несколько других проектов идут в том же направлении. Но OLMo Hybrid отличается именно полнотой открытости: опубликованы и веса, и датасеты, и логи обучения, и теоретическое обоснование выбора архитектуры.

Это важно, потому что позволяет другим исследователям воспроизвести и перепроверить результаты. Пока большинство компаний охотно публикует числа на бенчмарках, скрывая всё остальное, Ai2 публикует именно то, что позволяет понять, почему модель работает именно так.

На Hugging Face уже доступны базовая модель и инструктивно дообученный чекпоинт; отдельная модель с поддержкой рассуждений анонсирована на ближайшее время.