Gemini Diffusion

Name: Gemini Diffusion
Rating: 0.5 (10 reviews)
Author: Google

Google

Gemini Diffusion — это экспериментальная диффузионная модель для работы с текстом от Google DeepMind, представляющая собой передовое решение в своей области. Она исследует новый тип языковой модели, разработанной для предоставления пользователям большего контроля, креативности и скорости генерации текста. Вместо предсказания текста токен за токеном, она учится генерировать результаты путем пошагового уточнения шума, что позволяет быстро итерировать и исправлять ошибки в процессе генерации. Ключевые возможности включают быстрое время отклика (заявленные 1479 токенов/сек без учета накладных расходов), генерацию более связного текста за счет вывода целых блоков токенов одновременно и итеративное уточнение для получения последовательных результатов. Она превосходно справляется с задачами редактирования, включая контексты математики и программирования.

Основные характеристики

Параметры

Контекст

Дата выпуска

20 мая 2025 г.

Средний балл

46.9%

Репозиторий Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

20 мая 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

7 февраля 2026 г.

Технические характеристики

Параметры

Токены обучения

Граница знаний

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Программирование

Тесты на навыки программирования

HumanEval

Прохождение @1 AI: ChatGPT-4 Запрос: Вычислите интеграл log(1 + e^x) dx Ответ: Для вычисления интеграла $\int \log(1 + e^x) dx$, я использую подстановку. Пусть $u = e^x$, тогда $du = e^x dx$ и $dx = \frac{du}{u}$. Интеграл становится: $\int \log(1 + e^x) dx = \int \log(1 + u) \frac{du}{u}$ Это не очень удобно. Попробую другой подход. Заметим, что $\log(1 + e^x) = \log\left(\frac{e^x(e^{-x} + 1)}{e^{-x}}\right) = \log\left(\frac{1 + e^x}{e^{-x}}\right) = \log(1 + e^x) + \log(e^x) = \log(1 + e^x) + x$ Стоп, я допустил ошибку. Начнем заново. Интеграл по частям: $\int \log(1 + e^x) dx$ Пусть $u = \log(1 + e^x)$ и $dv = dx$. Тогда $du = \frac{e^x}{1+e^x} dx$ и $v = x$. $\int u dv = uv - \int v du$ $\int \log(1 + e^x) dx = x\log(1 + e^x) - \int x \frac{e^x}{1+e^x} dx$ Второй интеграл сложен. Попробую еще один подход. Пусть $u = 1 + e^x$, тогда $du = e^x dx$ или $dx = \frac{du}{u-1}$. $\int \log(1 + e^x) dx = \int \log(u) \frac{du}{u-1}$ Это всё еще сложно. Попробую интегрирование по частям иначе. Пусть $u = \log(1 + e^x)$ и $dv = dx$. Тогда $du = \frac{e^x}{1+e^x} dx$ и $v = x$. $\int \log(1 + e^x) dx = x\log(1 + e^x) - \int \frac{xe^x}{1+e^x} dx$ Упростим второй интеграл. Заметим, что $\frac{xe^x}{1+e^x} = x - \frac{x}{1+e^x}$. $\int \frac{xe^x}{1+e^x} dx = \int x dx - \int \frac{x}{1+e^x} dx = \frac{x^2}{2} - \int \frac{x}{1+e^x} dx • Self-reported

89.6%

MBPP

В методе передачи (pass @1) мы обрабатываем задачу из тестового набора с помощью определенной модели. Если задача и решение короткие, мы оцениваем задачу за один проход через модель. Когда мы используем методы выхода (разделение мыслей, Chain-of-Thought, tool-augmented Chain-of-Thought), мы запрашиваем промпт, который вынуждает модель использовать этот метод, и затем проверяем последний ответ. • Self-reported

76.0%

SWE-Bench Verified

Успех @1, Неагентная оценка (только одноразовое редактирование), максимальная длина промпта 32K • Self-reported

22.9%

Рассуждения

Логические рассуждения и анализ

GPQA

pass @1 • Self-reported

40.4%

Другие тесты

Специализированные бенчмарки

AIME 2025

Проход @1 AI: chatgpt-4 AI system: ChatGPT-4 (aka gpt-4-turbo). AI behavior: The AI is provided directly with task descriptions and resources. Description: ChatGPT refers to the GPT systems built by OpenAI that power the ChatGPT website and the GPT-4-Turbo API. In the Chatbot Arena, this is the GPT system that was deployed at the time the match was run. For multiple-round conversations, the AI retains some memory of the earlier interaction. Deployment: The AI is accessed via OpenAI's ChatGPT website (or the GPT-4-Turbo API). The AI system gets the user's message directly, and can respond in a variety of forms (text, photos, drawings, etc.) Pros: - Latest version of GPT model - Direct access to model - Minimal latency Cons: - Limited context window (128k tokens) - No real-time web access - Cannot solve lengthy or complex problems that require more than the context window • Self-reported

23.3%

BIG-Bench Extra Hard

pass @1 • Self-reported

15.0%

BigCodeBench

Пропуск @1 • Self-reported

45.4%

Global-MMLU-Lite

Прохождение с первой попытки При решении задачи мы хотим измерить, решает ли ее модель с первой попытки. В реальных ситуациях, пользователи, работающие с LLM, стараются получить правильный ответ на свои задачи с первой попытки, без дополнительных исправлений. Поэтому способность модели дать правильный ответ с первой попытки является важной метрикой. Мы измеряем, способна ли модель дать правильный ответ при первом предъявлении задачи, без дополнительных подсказок или наводящих вопросов. • Self-reported

69.1%

LBPP (v2)

pass @1 • Self-reported

56.8%

LiveCodeBench

Прохождение @1 В этом задании мы определяем правильность решения с точки зрения его конечного ответа. Решение считается правильным, если генерируется правильный конечный ответ, при этом само решение может содержать другие ошибки. Система получает балл 1, если генерирует правильный ответ, и 0 в противном случае. Данный метрический показатель имеет большое значение для приложений и оценки "ближайшего шага", когда пользователя интересует только правильность окончательного ответа, а не правильность каждого промежуточного шага. • Self-reported

30.9%

Лицензия и метаданные

Лицензия

proprietary

Дата анонса

20 мая 2025 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Gemini Diffusion

Основные характеристики

Временная шкала

Технические характеристики

Результаты бенчмарков

Программирование

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Gemini 1.0 Pro

Gemma 2 27B

Gemma 2 9B

Gemini 1.5 Flash

Gemini 2.0 Flash

Grok-1.5

Qwen3 Max

Gemma 3 1B