Microsoft logo

Phi 4 Mini Reasoning

Microsoft

Phi-4-mini-reasoning разработана для многоэтапных логически интенсивных задач решения математических проблем в условиях ограниченной памяти/вычислительных ресурсов и сценариев с ограничениями по задержке. Некоторые случаи применения включают генерацию формальных доказательств, символические вычисления, сложные текстовые задачи и широкий спектр сценариев математического рассуждения. Эти модели превосходно справляются с поддержанием контекста между шагами, применением структурированной логики и предоставлением точных, надежных решений в областях, требующих глубокого аналитического мышления.

Основные характеристики

Параметры
3.8B
Контекст
-
Дата выпуска
30 апреля 2025 г.
Средний балл
68.0%

Временная шкала

Ключевые даты в истории модели
Анонс
30 апреля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
3.8B
Токены обучения
150.0B токенов
Граница знаний
1 февраля 2025 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ
GPQA
Diamond Diamond - это экспериментальная модель для усиления агентов решения задач, работающая как дополнение к базовой модели. Она предлагает структурированный механизм для организации решений длинных цепочек логических рассуждений с помощью последовательных шагов, объяснений и верификаций. Diamond аналогичен Tree of Thoughts (ToT), но с усовершенствованиями для повышения устойчивости к ошибкам. Он применяет иерархическую декомпозицию для планирования сложных задач, где каждый шаг включает модульный подход, содержащий: 1. Формулировку подзадачи 2. Шаги рассуждения для её решения 3. Решение этого этапа 4. Верификацию решения с помощью альтернативного подхода Модель Diamond специально разработана для математических задач, хотя возможно применение и в других областях. Она работает, используя программное агентское обертывание, которое направляет базовую модель через этот структурированный процесс решения проблем.Self-reported
52.0%

Другие тесты

Специализированные бенчмарки
AIME
Стандартная оценка AI: У меня есть модель, которая может решать задачи. Метод оценки: Я отправлю модели набор задач и посмотрю, сколько из них она решит правильно. Достоинства: • Просто подсчитать правильные ответы и определить точность • Легко сравнивать разные модели • Позволяет оценить способность модели достигать правильных ответов Недостатки: • Не дает представления о ходе мыслей модели • Не учитывает, насколько близко модель подошла к решению при неверном ответе • Не учитывает, действительно ли модель решила задачу или просто угадала ответ • Затрудняет понимание причин ошибок модели Примеры: • GSM8K: коллекция задач по математическим рассуждениям, где точность определяется как доля правильных окончательных ответов • MMLU: набор тестов с множественным выбором по 57 предметам, где проверяется только выбранный вариантSelf-reported
57.5%
MATH-500
Стандартная оценка AI: ChatGPT Глава: "Анализ возможностей GPT-4 в решении сложных математических задач" Стандартная методология оценки: В рамках нашей оценки математических способностей GPT-4 мы использовали набор из 20 задач различной сложности, отобранных из олимпиад и сборников AIME. Каждая задача была представлена модели в текстовом формате без дополнительных подсказок или инструкций. Мы классифицировали ответы в три категории: 1. Полностью верное решение: модель предоставила корректный ответ с правильным обоснованием и промежуточными шагами. 2. Частично верное решение: модель использовала адекватный подход, но допустила ошибки в вычислениях или логике. 3. Неверное решение: модель выбрала неправильный подход или дала неверный ответ. Для каждой задачи мы делали три попытки и учитывали лучший результат. Вся оценка проводилась через API с температурой 0.2, чтобы обеспечить некоторую вариативность, но при этом ограничить случайность.Self-reported
94.6%

Лицензия и метаданные

Лицензия
mit
Дата анонса
30 апреля 2025 г.
Последнее обновление
19 июля 2025 г.