Gemini 3.1 Flash-Lite: бюджетная модель Google для массовых задач
Google выпустила Gemini 3.1 Flash-Lite — самую быструю и дешёвую модель серии Gemini 3. Стоимость $0.25 за миллион входных токенов, скорость в 2.5 раза выше Flash.

Три релиза Gemini за три недели. После обновлённого Gemini 3.1 Pro Google выпустила модель на противоположном конце спектра — Gemini 3.1 Flash-Lite, самую дешёвую и быструю в линейке Gemini 3. Модель уже доступна в preview через Google AI Studio и Vertex AI.
Что нового
Flash-Lite — это модель для тех случаев, когда нужна массовая обработка по минимальной цене. Входные токены стоят $0.25 за миллион, выходные — $1.50. Это в 8 раз дешевле Gemini 3.1 Pro и значительно ниже конкурентов своего класса.
При этом качество не пострадало. На бенчмарке GPQA Diamond модель показывает 86,9%, на MMMU Pro — 76,8%, превосходя даже более крупные модели предыдущих поколений, включая Gemini 2.5 Flash. Рейтинг на Arena.ai — 1432 Elo.
По скорости Flash-Lite также заметно обгоняет предшественника: время до первого токена (TTFA) в 2,5 раза быстрее, а скорость генерации на 45% выше по данным Artificial Analysis.
| Параметр | Gemini 3.1 Flash-Lite | GPT-5 mini | Claude 4.5 Haiku |
|---|---|---|---|
| Вход ($/1M токенов) | $0.25 | — | — |
| Выход ($/1M токенов) | $1.50 | — | — |
| GPQA Diamond | 86.9% | — | — |
| MMMU Pro | 76.8% | — | — |
| Arena.ai Elo | 1432 | — | — |
Для чего подходит
Google позиционирует Flash-Lite для высокочастотных задач: массовый перевод, модерация контента, классификация изображений, извлечение данных. Но модель также поддерживает настраиваемые уровни «мышления» (thinking levels) — функцию, позволяющую разработчикам контролировать, сколько вычислений модель тратит на каждый запрос.
Это значит, что для простых задач (тегирование, фильтрация) можно использовать минимальный уровень рассуждений и получать ответы мгновенно, а для более сложных (генерация интерфейсов, создание симуляций) — увеличить глубину обработки.
Несколько компаний уже тестируют модель. Latitude отмечает точное следование инструкциям, Cartwheel хвалит скорость мультимодальной разметки, а Whering использует Flash-Lite для консистентного тегирования товаров в каталоге.
Почему это важно
С каждым релизом Google методично заполняет линейку Gemini 3: сначала Pro для фронтирных задач, потом Flash для баланса скорости и качества, теперь Flash-Lite для массовых операций. Эта стратегия напоминает то, что Anthropic делает с Claude Haiku, а OpenAI — с линейкой mini.
Для разработчиков, строящих продукты на AI-API, Flash-Lite становится серьёзным конкурентом Claude 4.5 Haiku и GPT-5 mini в ценовой нише. При заявленном качестве на уровне GPQA Diamond 86,9% это уже не просто «бюджетная модель», а вполне рабочий инструмент для большинства продуктовых задач.

