Gemini 3.1 Ultra: Google вернулся в гонку фронтирных моделей
Google выпустила Gemini 3.1 Ultra с 2M токенов контекста и нативной мультимодальностью. Модель лидирует на ARC-AGI-2 и LiveCodeBench.

Пока Anthropic шокировала мир Mythos, а OpenAI полировала GPT-5.4, Google тихо выпустила модель, которая обошла обоих на ключевых бенчмарках. Gemini 3.1 — это не просто итеративное улучшение. Это ответ на вопрос, может ли Google снова претендовать на лидерство в AI.
Что изменилось
Линейка Gemini 3.1 включает несколько моделей: Pro для сложных задач, Flash-Lite для бюджетных сценариев и Flash Live для аудио. Флагманский Pro принимает до 1 миллиона токенов на вход, а Ultra-версия, по данным разработчиков, поддерживает окно контекста в 2 миллиона токенов — крупнейшее среди фронтирных моделей.
Нативная мультимодальность означает, что текст, изображения, видео и аудио обрабатываются единой архитектурой, а не через отдельные энкодеры. Это даёт более глубокое понимание связей между модальностями — например, модель может анализировать видео-презентацию, одновременно читая слайды, слушая спикера и интерпретируя графики.
Встроенный инструмент sandboxed code execution позволяет модели писать и запускать код для решения задач прямо в процессе рассуждения. Google также добавила поддержку function calling, structured output и поисковый инструмент.
Бенчмарки
Цифры говорят сами за себя:
| Бенчмарк | Gemini 3.1 Pro | Opus 4.6 | GPT-5.3-Codex |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | 68.8% | — |
| GPQA Diamond | 94.3% | 91.3% | — |
| Terminal-Bench 2.0 | 68.5% | 65.4% | 64.7% |
| LiveCodeBench Pro (Elo) | 2887 | — | — |
| BrowseComp | 85.9% | 84.0% | — |
| SWE-Bench Verified | 80.6% | 80.8% | — |
На ARC-AGI-2, тесте абстрактного мышления, Gemini 3.1 Pro набрал 77.1% — более чем вдвое больше предыдущего Gemini 3 Pro (31.1%) и на 8 пунктов выше Opus 4.6. На LiveCodeBench Pro, соревновательном бенчмарке программирования с задачами от Codeforces и ICPC, модель набрала Elo 2887 — это уровень сильного человеческого участника.
На SWE-Bench Verified — единственном бенчмарке, где Opus 4.6 ещё удерживает лидерство — разница составляет 0.2 процентного пункта. Практически паритет.
Платформа Antigravity
Вместе с моделью Google запустила Antigravity — агентскую платформу для разработки, прямой конкурент Claude Code и Codex. Antigravity интегрирована в Google AI Studio и позволяет превращать промпты в production-ready приложения с базами данных, мультиплеерным режимом и подключением к внешним сервисам.
Экосистема включает Developer Knowledge API — MCP-сервер с доступом к документации Firebase, Android, Cloud и Maps (40 миллионов документов). Это даёт Gemini преимущество при разработке под Google-стек, которое ни Anthropic, ни OpenAI пока не могут предложить.
Позиция на рынке
Google долго оставался в тени Anthropic и OpenAI в гонке фронтирных моделей. Gemini 2.5 Pro был хорош, но не доминировал. Gemini 3.1 меняет расклад: модель лидирует на 8 из 14 ключевых бенчмарков в собственной таблице сравнений, опережая и Opus 4.6, и GPT-5.3-Codex.
Остаётся вопрос ценообразования и доступности. Google предлагает Gemini 3.1 Pro через AI Studio, Vertex AI, API и приложение Gemini. Для разработчиков особенно интересен бесплатный тир AI Studio — возможность тестировать фронтирную модель без затрат.
Что дальше
Утечки в LinkedIn и Reddit упоминали кодовые названия Snow Bunny, Fierce Falcon и Ghost Falcon — вероятно, будущие модели линейки 3.5. Если Google сохранит темп улучшений, к середине 2026 года расстановка сил в AI может измениться радикально. Впрочем, Anthropic и OpenAI тоже не стоят на месте — Mythos и GPT-5.4 Pro показывают, что гонка далека от завершения.


