Релизы AI-моделей в мае 2026: от Gemini 3.5 Flash до GPT-5.5
Обзор крупнейших релизов LLM за май 2026: OpenAI, Google, xAI, Mistral, DeepSeek. Новые модели, цены, бенчмарки.

Май 2026 стал одним из самых насыщенных месяцев по релизам AI-моделей — только за первые три недели вышло 8 крупных моделей от топовых лабораторий и 300+ отслеживаемых релизов в целом.
Главные релизы мая
Gemini 3.5 Flash (Google, 18 мая)
- Тип: Lightweight
- Позиционирование: Самая быстрая модель в линейке Gemini
- Цена: $150/M output (ниже Gemini 3.1 Pro)
- Use case: High-throughput задачи, где критична латентность
Grok 4.3 (xAI, 5 мая)
- Тип: Production release
- Обновления:
- Улучшенная интеграция с X/Twitter
- Real-time данные с 2-секундной задержкой
- Reasoning performance на уровне Claude Opus 4.6
- Цена: $2/$15 (вход/выход за 1M)
GPT-5.5 Instant (OpenAI, 4 мая)
- Тип: Lightweight version GPT-5.5
- Главное: Стал моделью по умолчанию для всех ChatGPT-пользователей
- Улучшения:
- Более точные фактические ответы
- Меньше "мусора" (emojis, overformatting)
- Лучший web search decision-making
- Миграция: GPT-5.3 Instant доступен ещё 3 месяца для платных пользователей
Mistral Medium 3.5 (Mistral AI, 28 апр)
- Тип: Mid-tier release
- Лицензия: Open Source
- Контекст: 128K tokens
- Особенность: Лучший open-source вариант для reasoning-задач на локальном железе
DeepSeek-V4-Pro-Max / Flash-Max (DeepSeek, 22 апр)
- Тип: Pro + lightweight versions
- Лицензия: Open Source
- Главное:
- V4-Pro-Max — лидер среди open-source моделей по SWE-bench
- V4-Flash-Max — конкурент Gemini Flash по скорости
- Цена (через DeepInfra): $0.06–$1.74 за 1M (дешевле проприетарных в 10–50 раз)
Активность AI-лабораторий (последние 6 месяцев)
Топ-5 по количеству релизов
- OpenAI — 11 моделей (GPT-5.5, GPT-5.5 Pro, GPT-5.5 Instant, GPT-Image-2, etc.)
- Mistral AI — 15 моделей (включая Voxtral TTS, workflows)
- Alibaba/Qwen — 12 моделей (Qwen3.6 линейка, multimodal updates)
- Google — 8 моделей (Gemini 3.5, Gemma 4 open-source линейка)
- Anthropic — 4 модели (Claude Opus 4.7, Sonnet 4.6, Mythos Preview)
Паттерны версионирования
Major releases (GPT-4 → GPT-5, Claude 3 → Claude 4):
- Значительный прирост capability
- Могут требовать изменения промптов
- Обычно с новой архитектурой
Minor updates (GPT-4 → GPT-4 Turbo, Gemini 1.5 → 1.5 Pro):
- Оптимизация производительности
- Снижение цены
- Расширение context window
- Совместимость сохраняется
Dated snapshots (OpenAI):
- Формат:
gpt-4-0613,gpt-5.5-20260504 - Фиксированная версия для воспроизводимости
- Используются в production для стабильности
Ценовые тренды
Самые дешёвые модели (API, май 2026)
Input (за 1M токенов):
- DeepSeek V4 (через DeepInfra): $0.06
- Qwen3.6-27B (через Novita): $0.08
- Gemini 3.1 Pro: $2.00
- GPT-5.5 Standard: $5.00
Output (за 1M токенов):
- DeepSeek V4: $0.30–$1.74
- Qwen3.6: $0.60
- Gemini 3.1 Pro: $12.00
- GPT-5.5 Standard: $30.00
Самые дорогие (премиум reasoning)
- GPT-5.5 Pro: $30/$180 (вход/выход)
- Claude Opus 4.7: $5/$25 (с учётом нового токенизатора +35% токенов)
- Gemini 3.1 Pro (>200K context): $4/$18
Тренды развития
1. Reasoning models — скорость vs точность
Примеры: GPT-5.5 Pro, Claude Opus 4.7, DeepSeek-V4-Pro
Модели жертвуют скоростью ради точности:
- Внутренний chain-of-thought
- Multi-pass verification
- Латентность: 5–30 секунд на сложную задачу
Когда использовать:
- Математические доказательства
- Coding с архитектурными решениями
- Финансовое моделирование
- Научные исследования
2. Multimodal становится стандартом
Все frontier-модели теперь поддерживают хотя бы vision:
- GPT-5.5: text + image + audio + computer use
- Claude Opus 4.7: text + image + tool use
- Gemini 3.1 Pro: text + image + audio + video (лидер)
- Grok 4: text + image + X data
Следующий шаг (ожидается Q3 2026):
- Multimodal output (изображения, аудио, видео из одной модели)
- Уже есть у китайских лабораторий (Qwen3.6-Vision)
3. Efficiency improvements
GPT-4-уровень производительности теперь доступен за $0.06–$2 за 1M input токенов (было $30 в 2024).
Драйверы:
- Квантизация (int4, int8)
- Оптимизированные инференс-движки (vLLM, TensorRT-LLM)
- Более эффективные архитектуры (DeepSeek MoE, Qwen hybrid)
4. Release velocity
300+ моделей отслеживается LLM Stats в мае 2026.
Скорость релизов:
- 2023: 1–2 крупных релиза в месяц
- 2024: 3–5 релизов от топовых лабораторий
- 2026: 5–10 крупных релизов + десятки open-source вариантов
Что ждать в июне 2026
Подтверждённые релизы
- Claude Sonnet 4.8 (Anthropic, ожидается 1–5 июня)
- Gemini 3.1 Ultra (Google, слухи про multimodal output)
- GPT-6 early preview (OpenAI, для Enterprise клиентов)
Слухи
- Grok 5 с рассуждениями уровня Claude Opus
- Qwen 4.0 — полностью multimodal open-source модель
- Meta Llama 4.5 — 600B+ параметров, конкурент GPT-5
Итого: Главное за май
✅ 8 крупных релизов от топовых лабораторий ✅ 300+ моделей в индустрии (включая fine-tunes, localized versions) ✅ GPT-5.5 Instant стал стандартом для ChatGPT ✅ DeepSeek V4 — новый лидер open-source ✅ Gemini 3.5 Flash — самая быстрая Google-модель ✅ Цены падают: GPT-4-уровень за $0.06/M input (через DeepSeek/DeepInfra) ✅ Multimodal теперь у всех топовых моделей ✅ Reasoning models растут — жертвуют скоростью ради точности
Главный тренд: Индустрия движется от гонки за универсальностью к специализации по use cases — быстрые модели для чатов, reasoning-heavy для науки, multimodal для контента.

