Google logo

Gemini Diffusion

Google

Gemini Diffusion — это экспериментальная диффузионная модель для работы с текстом от Google DeepMind, представляющая собой передовое решение в своей области. Она исследует новый тип языковой модели, разработанной для предоставления пользователям большего контроля, креативности и скорости генерации текста. Вместо предсказания текста токен за токеном, она учится генерировать результаты путем пошагового уточнения шума, что позволяет быстро итерировать и исправлять ошибки в процессе генерации. Ключевые возможности включают быстрое время отклика (заявленные 1479 токенов/сек без учета накладных расходов), генерацию более связного текста за счет вывода целых блоков токенов одновременно и итеративное уточнение для получения последовательных результатов. Она превосходно справляется с задачами редактирования, включая контексты математики и программирования.

Основные характеристики

Параметры
-
Контекст
-
Дата выпуска
20 мая 2025 г.
Средний балл
46.9%

Временная шкала

Ключевые даты в истории модели
Анонс
20 мая 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
-
Токены обучения
-
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования
HumanEval
Прохождение @1 AI: ChatGPT-4 Запрос: Вычислите интеграл log(1 + e^x) dx Ответ: Для вычисления интеграла $\int \log(1 + e^x) dx$, я использую подстановку. Пусть $u = e^x$, тогда $du = e^x dx$ и $dx = \frac{du}{u}$. Интеграл становится: $\int \log(1 + e^x) dx = \int \log(1 + u) \frac{du}{u}$ Это не очень удобно. Попробую другой подход. Заметим, что $\log(1 + e^x) = \log\left(\frac{e^x(e^{-x} + 1)}{e^{-x}}\right) = \log\left(\frac{1 + e^x}{e^{-x}}\right) = \log(1 + e^x) + \log(e^x) = \log(1 + e^x) + x$ Стоп, я допустил ошибку. Начнем заново. Интеграл по частям: $\int \log(1 + e^x) dx$ Пусть $u = \log(1 + e^x)$ и $dv = dx$. Тогда $du = \frac{e^x}{1+e^x} dx$ и $v = x$. $\int u dv = uv - \int v du$ $\int \log(1 + e^x) dx = x\log(1 + e^x) - \int x \frac{e^x}{1+e^x} dx$ Второй интеграл сложен. Попробую еще один подход. Пусть $u = 1 + e^x$, тогда $du = e^x dx$ или $dx = \frac{du}{u-1}$. $\int \log(1 + e^x) dx = \int \log(u) \frac{du}{u-1}$ Это всё еще сложно. Попробую интегрирование по частям иначе. Пусть $u = \log(1 + e^x)$ и $dv = dx$. Тогда $du = \frac{e^x}{1+e^x} dx$ и $v = x$. $\int \log(1 + e^x) dx = x\log(1 + e^x) - \int \frac{xe^x}{1+e^x} dx$ Упростим второй интеграл. Заметим, что $\frac{xe^x}{1+e^x} = x - \frac{x}{1+e^x}$. $\int \frac{xe^x}{1+e^x} dx = \int x dx - \int \frac{x}{1+e^x} dx = \frac{x^2}{2} - \int \frac{x}{1+e^x} dxSelf-reported
89.6%
MBPP
В методе передачи (pass @1) мы обрабатываем задачу из тестового набора с помощью определенной модели. Если задача и решение короткие, мы оцениваем задачу за один проход через модель. Когда мы используем методы выхода (разделение мыслей, Chain-of-Thought, tool-augmented Chain-of-Thought), мы запрашиваем промпт, который вынуждает модель использовать этот метод, и затем проверяем последний ответ.Self-reported
76.0%
SWE-Bench Verified
Успех @1, Неагентная оценка (только одноразовое редактирование), максимальная длина промпта 32KSelf-reported
22.9%

Рассуждения

Логические рассуждения и анализ
GPQA
pass @1Self-reported
40.4%

Другие тесты

Специализированные бенчмарки
AIME 2025
Проход @1 AI: chatgpt-4 AI system: ChatGPT-4 (aka gpt-4-turbo). AI behavior: The AI is provided directly with task descriptions and resources. Description: ChatGPT refers to the GPT systems built by OpenAI that power the ChatGPT website and the GPT-4-Turbo API. In the Chatbot Arena, this is the GPT system that was deployed at the time the match was run. For multiple-round conversations, the AI retains some memory of the earlier interaction. Deployment: The AI is accessed via OpenAI's ChatGPT website (or the GPT-4-Turbo API). The AI system gets the user's message directly, and can respond in a variety of forms (text, photos, drawings, etc.) Pros: - Latest version of GPT model - Direct access to model - Minimal latency Cons: - Limited context window (128k tokens) - No real-time web access - Cannot solve lengthy or complex problems that require more than the context windowSelf-reported
23.3%
BIG-Bench Extra Hard
pass @1Self-reported
15.0%
BigCodeBench
Пропуск @1Self-reported
45.4%
Global-MMLU-Lite
Прохождение с первой попытки При решении задачи мы хотим измерить, решает ли ее модель с первой попытки. В реальных ситуациях, пользователи, работающие с LLM, стараются получить правильный ответ на свои задачи с первой попытки, без дополнительных исправлений. Поэтому способность модели дать правильный ответ с первой попытки является важной метрикой. Мы измеряем, способна ли модель дать правильный ответ при первом предъявлении задачи, без дополнительных подсказок или наводящих вопросов.Self-reported
69.1%
LBPP (v2)
pass @1Self-reported
56.8%
LiveCodeBench
Прохождение @1 В этом задании мы определяем правильность решения с точки зрения его конечного ответа. Решение считается правильным, если генерируется правильный конечный ответ, при этом само решение может содержать другие ошибки. Система получает балл 1, если генерирует правильный ответ, и 0 в противном случае. Данный метрический показатель имеет большое значение для приложений и оценки "ближайшего шага", когда пользователя интересует только правильность окончательного ответа, а не правильность каждого промежуточного шага.Self-reported
30.9%

Лицензия и метаданные

Лицензия
proprietary
Дата анонса
20 мая 2025 г.
Последнее обновление
19 июля 2025 г.