Релизы AI-моделей в мае 2026: от Gemini 3.5 Flash до GPT-5.5

Обзор крупнейших релизов LLM за май 2026: OpenAI, Google, xAI, Mistral, DeepSeek. Новые модели, цены, бенчмарки.

Май 2026 стал одним из самых насыщенных месяцев по релизам AI-моделей — только за первые три недели вышло 8 крупных моделей от топовых лабораторий и 300+ отслеживаемых релизов в целом.

Главные релизы мая

Gemini 3.5 Flash (Google, 18 мая)

Тип: Lightweight
Позиционирование: Самая быстрая модель в линейке Gemini
Цена: $150/M output (ниже Gemini 3.1 Pro)
Use case: High-throughput задачи, где критична латентность

Grok 4.3 (xAI, 5 мая)

Тип: Production release
Обновления:
- Улучшенная интеграция с X/Twitter
- Real-time данные с 2-секундной задержкой
- Reasoning performance на уровне Claude Opus 4.6
Цена: $2/$15 (вход/выход за 1M)

GPT-5.5 Instant (OpenAI, 4 мая)

Тип: Lightweight version GPT-5.5
Главное: Стал моделью по умолчанию для всех ChatGPT-пользователей
Улучшения:
- Более точные фактические ответы
- Меньше "мусора" (emojis, overformatting)
- Лучший web search decision-making
Миграция: GPT-5.3 Instant доступен ещё 3 месяца для платных пользователей

Mistral Medium 3.5 (Mistral AI, 28 апр)

Тип: Mid-tier release
Лицензия: Open Source
Контекст: 128K tokens
Особенность: Лучший open-source вариант для reasoning-задач на локальном железе

DeepSeek-V4-Pro-Max / Flash-Max (DeepSeek, 22 апр)

Тип: Pro + lightweight versions
Лицензия: Open Source
Главное:
- V4-Pro-Max — лидер среди open-source моделей по SWE-bench
- V4-Flash-Max — конкурент Gemini Flash по скорости
Цена (через DeepInfra): $0.06–$1.74 за 1M (дешевле проприетарных в 10–50 раз)

Активность AI-лабораторий (последние 6 месяцев)

Топ-5 по количеству релизов

OpenAI — 11 моделей (GPT-5.5, GPT-5.5 Pro, GPT-5.5 Instant, GPT-Image-2, etc.)
Mistral AI — 15 моделей (включая Voxtral TTS, workflows)
Alibaba/Qwen — 12 моделей (Qwen3.6 линейка, multimodal updates)
Google — 8 моделей (Gemini 3.5, Gemma 4 open-source линейка)
Anthropic — 4 модели (Claude Opus 4.7, Sonnet 4.6, Mythos Preview)

Паттерны версионирования

Major releases (GPT-4 → GPT-5, Claude 3 → Claude 4):

Значительный прирост capability
Могут требовать изменения промптов
Обычно с новой архитектурой

Minor updates (GPT-4 → GPT-4 Turbo, Gemini 1.5 → 1.5 Pro):

Оптимизация производительности
Снижение цены
Расширение context window
Совместимость сохраняется

Dated snapshots (OpenAI):

Формат: gpt-4-0613, gpt-5.5-20260504
Фиксированная версия для воспроизводимости
Используются в production для стабильности

Ценовые тренды

Самые дешёвые модели (API, май 2026)

Input (за 1M токенов):

DeepSeek V4 (через DeepInfra): $0.06
Qwen3.6-27B (через Novita): $0.08
Gemini 3.1 Pro: $2.00
GPT-5.5 Standard: $5.00

Output (за 1M токенов):

DeepSeek V4: $0.30–$1.74
Qwen3.6: $0.60
Gemini 3.1 Pro: $12.00
GPT-5.5 Standard: $30.00

Самые дорогие (премиум reasoning)

GPT-5.5 Pro: $30/$180 (вход/выход)
Claude Opus 4.7: $5/$25 (с учётом нового токенизатора +35% токенов)
Gemini 3.1 Pro (>200K context): $4/$18

Тренды развития

1. Reasoning models — скорость vs точность

Примеры: GPT-5.5 Pro, Claude Opus 4.7, DeepSeek-V4-Pro

Модели жертвуют скоростью ради точности:

Внутренний chain-of-thought
Multi-pass verification
Латентность: 5–30 секунд на сложную задачу

Когда использовать:

Математические доказательства
Coding с архитектурными решениями
Финансовое моделирование
Научные исследования

2. Multimodal становится стандартом

Все frontier-модели теперь поддерживают хотя бы vision:

GPT-5.5: text + image + audio + computer use
Claude Opus 4.7: text + image + tool use
Gemini 3.1 Pro: text + image + audio + video (лидер)
Grok 4: text + image + X data

Следующий шаг (ожидается Q3 2026):

Multimodal output (изображения, аудио, видео из одной модели)
Уже есть у китайских лабораторий (Qwen3.6-Vision)

3. Efficiency improvements

GPT-4-уровень производительности теперь доступен за $0.06–$2 за 1M input токенов (было $30 в 2024).

Драйверы:

Квантизация (int4, int8)
Оптимизированные инференс-движки (vLLM, TensorRT-LLM)
Более эффективные архитектуры (DeepSeek MoE, Qwen hybrid)

4. Release velocity

300+ моделей отслеживается LLM Stats в мае 2026.

Скорость релизов:

2023: 1–2 крупных релиза в месяц
2024: 3–5 релизов от топовых лабораторий
2026: 5–10 крупных релизов + десятки open-source вариантов

Что ждать в июне 2026

Подтверждённые релизы

Claude Sonnet 4.8 (Anthropic, ожидается 1–5 июня)
Gemini 3.1 Ultra (Google, слухи про multimodal output)
GPT-6 early preview (OpenAI, для Enterprise клиентов)

Слухи

Grok 5 с рассуждениями уровня Claude Opus
Qwen 4.0 — полностью multimodal open-source модель
Meta Llama 4.5 — 600B+ параметров, конкурент GPT-5

Итого: Главное за май

✅ 8 крупных релизов от топовых лабораторий ✅ 300+ моделей в индустрии (включая fine-tunes, localized versions) ✅ GPT-5.5 Instant стал стандартом для ChatGPT ✅ DeepSeek V4 — новый лидер open-source ✅ Gemini 3.5 Flash — самая быстрая Google-модель ✅ Цены падают: GPT-4-уровень за $0.06/M input (через DeepSeek/DeepInfra) ✅ Multimodal теперь у всех топовых моделей ✅ Reasoning models растут — жертвуют скоростью ради точности

Главный тренд: Индустрия движется от гонки за универсальностью к специализации по use cases — быстрые модели для чатов, reasoning-heavy для науки, multimodal для контента.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN