Phi 4 Mini Reasoning

Name: Phi 4 Mini Reasoning
Rating: 0.7 (3 reviews)
Author: Microsoft

Microsoft

Phi-4-mini-reasoning разработана для многоэтапных логически интенсивных задач решения математических проблем в условиях ограниченной памяти/вычислительных ресурсов и сценариев с ограничениями по задержке. Некоторые случаи применения включают генерацию формальных доказательств, символические вычисления, сложные текстовые задачи и широкий спектр сценариев математического рассуждения. Эти модели превосходно справляются с поддержанием контекста между шагами, применением структурированной логики и предоставлением точных, надежных решений в областях, требующих глубокого аналитического мышления.

Основные характеристики

Параметры

3.8B

Контекст

Дата выпуска

30 апреля 2025 г.

Средний балл

68.0%

API документация Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

30 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

7 февраля 2026 г.

Технические характеристики

Параметры

3.8B

Токены обучения

150.0B токенов

Граница знаний

1 февраля 2025 г.

Семейство

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond Diamond - это экспериментальная модель для усиления агентов решения задач, работающая как дополнение к базовой модели. Она предлагает структурированный механизм для организации решений длинных цепочек логических рассуждений с помощью последовательных шагов, объяснений и верификаций. Diamond аналогичен Tree of Thoughts (ToT), но с усовершенствованиями для повышения устойчивости к ошибкам. Он применяет иерархическую декомпозицию для планирования сложных задач, где каждый шаг включает модульный подход, содержащий: 1. Формулировку подзадачи 2. Шаги рассуждения для её решения 3. Решение этого этапа 4. Верификацию решения с помощью альтернативного подхода Модель Diamond специально разработана для математических задач, хотя возможно применение и в других областях. Она работает, используя программное агентское обертывание, которое направляет базовую модель через этот структурированный процесс решения проблем. • Self-reported

52.0%

Другие тесты

Специализированные бенчмарки

AIME

Стандартная оценка AI: У меня есть модель, которая может решать задачи. Метод оценки: Я отправлю модели набор задач и посмотрю, сколько из них она решит правильно. Достоинства: • Просто подсчитать правильные ответы и определить точность • Легко сравнивать разные модели • Позволяет оценить способность модели достигать правильных ответов Недостатки: • Не дает представления о ходе мыслей модели • Не учитывает, насколько близко модель подошла к решению при неверном ответе • Не учитывает, действительно ли модель решила задачу или просто угадала ответ • Затрудняет понимание причин ошибок модели Примеры: • GSM8K: коллекция задач по математическим рассуждениям, где точность определяется как доля правильных окончательных ответов • MMLU: набор тестов с множественным выбором по 57 предметам, где проверяется только выбранный вариант • Self-reported

57.5%

MATH-500

Стандартная оценка AI: ChatGPT Глава: "Анализ возможностей GPT-4 в решении сложных математических задач" Стандартная методология оценки: В рамках нашей оценки математических способностей GPT-4 мы использовали набор из 20 задач различной сложности, отобранных из олимпиад и сборников AIME. Каждая задача была представлена модели в текстовом формате без дополнительных подсказок или инструкций. Мы классифицировали ответы в три категории: 1. Полностью верное решение: модель предоставила корректный ответ с правильным обоснованием и промежуточными шагами. 2. Частично верное решение: модель использовала адекватный подход, но допустила ошибки в вычислениях или логике. 3. Неверное решение: модель выбрала неправильный подход или дала неверный ответ. Для каждой задачи мы делали три попытки и учитывали лучший результат. Вся оценка проводилась через API с температурой 0.2, чтобы обеспечить некоторую вариативность, но при этом ограничить случайность. • Self-reported

94.6%

Лицензия и метаданные

Лицензия

mit

Дата анонса

30 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Phi 4 Mini Reasoning

Основные характеристики

Временная шкала

Технические характеристики

Результаты бенчмарков

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Phi-3.5-mini-instruct

Phi 4 Mini

Llama 3.1 Nemotron Nano 8B V1

Ministral 8B Instruct

DeepSeek R1 Distill Qwen 7B

DeepSeek R1 Distill Llama 8B

Phi 4

Phi 4 Reasoning Plus