GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
трансформерывниманиеархитектураlong-contextисследованияopen-source

Субквадратичное внимание: 76 токенов/с на 10 миллионах контекста на одной GPU

Concavity AI выпустила Superlinear Multi-Step Attention — первую практическую реализацию субквадратичного внимания на одной NVIDIA B200. 109 tok/s при 1M контекста, 76 tok/s при 10M. Разбираем архитектуру.

Влад МакаровВлад Макаровпроверил и опубликовал
8 мин чтения
Субквадратичное внимание: 76 токенов/с на 10 миллионах контекста на одной GPU

Что если контекст в 10 миллионов токенов перестанет быть теоретической фантазией и станет реальностью на одной видеокарте? Стартап Concavity AI выпустил Superlinear Multi-Step Attention — механизм внимания со сложностью O(L^1.54) вместо стандартной O(L²). На NVIDIA B200 модель декодирует 109 токенов/с при контексте 1M и 76 токенов/с при 10M токенов. Стандартное квадратичное внимание при таких длинах физически невозможно на одной GPU.

Почему квадратичное внимание — это стена

Каждый раз, когда трансформер генерирует следующий токен, он «смотрит» на все предыдущие токены. При контексте в 1000 токенов это 1 миллион операций сравнения. При 10 миллионах — 100 триллионов. Квадратичная зависимость O(L²) — фундаментальное ограничение архитектуры Attention из оригинальной статьи 2017 года.

До сих пор все попытки обойти это ограничение заканчивались компромиссом. Mamba и RWKV добились линейной сложности, но уступили по качеству фронтирным моделям. DeepSeek NSA (Native Sparse Attention) впечатлила в феврале 2025 года, но анализ на LessWrong показал, что её реальная сложность остаётся квадратичной — просто с меньшим константным множителем (8x для prefill, 20x для decode). Kimi Linear Attention тоже оказался квадратичным на 25% слоёв.

Как работает Superlinear

Ключевая идея — аналогия с алгоритмом jump search из классической информатики. Вместо того чтобы для каждого запроса перебирать все ключи (квадратичная сложность), модель действует в два шага.

Первый шаг — «прыжки». Последовательность обрабатывается блоками через слои Mamba-2 (линейная рекуренция), которые создают сжатые «представители» для каждой позиции. Для каждого запроса модель оценивает √L якорных точек, расставленных по степенной сетке, и выбирает top-k наиболее релевантных (обычно 2-3).

Второй шаг — «поиск в окрестности». Внутри выбранных сегментов размером √L токенов вокруг каждого якоря выполняется стандартное полное внимание. Дополнительно сохраняется скользящее окно (~2000 токенов) для локального контекста.

Оба шага имеют сложность O(L^(3/2)) — суммарно O(L^1.5). В реальной реализации с оптимизациями получается O(L^1.54).

Критическое свойство, отличающее подход от фиксированных разреженных паттернов: Random Context Access. Ни одна позиция токена не исключена структурно — маршрутизация зависит от контента, и объединение всех кандидатских сегментов покрывает каждую позицию. Модель может обратиться к любому токену — просто не обращается ко всем одновременно.

Цифры производительности

Модель протестирована на единственной NVIDIA B200 (180 ГБ VRAM), batch size 1, на основе модифицированного 30B гибридного MoE (NVIDIA Nemotron-3-Nano-30B-A3B, ~3B активных параметров на токен).

КонтекстPrefillDecodeLatency
1M токенов~20 200 tok/s~109 tok/s~9.2 мс/токен
10M токенов~5 576 tok/s~76 tok/s~13.2 мс/токен

Для сравнения: FlashAttention-2 (оптимизированная квадратичная реализация) быстрее при контексте до ~60K токенов. Но после этой точки Superlinear уходит в отрыв, а при 10M токенов стандартное внимание попросту неработоспособно на одном GPU.

Потребление памяти: ~6 ГБ на миллион токенов KV-кеша + ~60 ГБ веса модели в FP16. На H100 (80 ГБ) максимум ~2M контекста, на B200 (180 ГБ) — свыше 10M.

Кто за этим стоит

Единственный автор статьи — Юфэн Хуан из стартапа Concavity AI. Его академический бэкграунд необычен для ML-исследований: 3 226 цитирований и h-index 11, но преимущественно в вычислительной химии — публикации в Nature Communications и Journal of the American Chemical Society по электрокатализу и нейросетевым силовым полям, работа с Уильямом Годдардом III в Caltech. Superlinear — его первая работа в области архитектур трансформеров.

Код (Apache 2.0) и веса модели доступны на GitHub и HuggingFace. Инференс-движок включает OpenAI-совместимый сервер, интерактивный чат и систему сессий с кешированием KV-кеша между запросами — практичное решение, потому что перезаполнять миллионы токенов при каждом ходе диалога нереально.

Что это значит и чего пока не хватает

Superlinear — первая демонстрация того, что субквадратичное внимание с произвольным доступом к контексту работает на реальном железе при экстремальных длинах. Это не теоретическая работа — есть код, есть модель, есть воспроизводимые бенчмарки.

Но важных оговорок много. Статья явно заявляет: «Мы не претендуем на state-of-the-art точность на бенчмарках». Единственная проверка качества — Needle in a Haystack до 256K токенов. Нет MMLU, нет HumanEval, нет сравнения генерации с полноконтекстными моделями аналогичного размера. Именно на этом этапе обычно ломаются все «убийцы трансформеров» — линейные и разреженные методы теряют качество на задачах, требующих тонкого глобального контекста.

Ещё один нюанс — патентная заявка. Concavity AI подала патент на аспекты метода, что может ограничить открытое внедрение.

Выводы

Superlinear Multi-Step Attention — серьёзная заявка на решение одной из фундаментальных проблем архитектуры трансформеров. 76 токенов в секунду при 10 миллионах контекста на одной GPU — это цифра, которая ещё год назад казалась невозможной. Но путь от «работает в демо» до «заменяет FlashAttention в продакшне» долгий, и его ключевой этап — всесторонняя оценка качества — ещё впереди.

Для разработчиков и исследователей: код открыт, модель доступна, можно проверить самостоятельно. 28 звёзд на GitHub говорят о том, что сообщество пока присматривается. Если качество подтвердится на фронтирных моделях, это изменит не только длину контекста, но и экономику инференса: вместо кластера GPU для длинных документов — одна карта.

Похожие новости

Листайте вниз

для загрузки следующей статьи