Phi 4 Mini Reasoning
Phi-4-mini-reasoning разработана для многоэтапных логически интенсивных задач решения математических проблем в условиях ограниченной памяти/вычислительных ресурсов и сценариев с ограничениями по задержке. Некоторые случаи применения включают генерацию формальных доказательств, символические вычисления, сложные текстовые задачи и широкий спектр сценариев математического рассуждения. Эти модели превосходно справляются с поддержанием контекста между шагами, применением структурированной логики и предоставлением точных, надежных решений в областях, требующих глубокого аналитического мышления.
Основные характеристики
Параметры
3.8B
Контекст
-
Дата выпуска
30 апреля 2025 г.
Средний балл
68.0%
Временная шкала
Ключевые даты в истории модели
Анонс
30 апреля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
3.8B
Токены обучения
150.0B токенов
Граница знаний
1 февраля 2025 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Рассуждения
Логические рассуждения и анализ
GPQA
Diamond
Diamond - это экспериментальная модель для усиления агентов решения задач, работающая как дополнение к базовой модели. Она предлагает структурированный механизм для организации решений длинных цепочек логических рассуждений с помощью последовательных шагов, объяснений и верификаций.
Diamond аналогичен Tree of Thoughts (ToT), но с усовершенствованиями для повышения устойчивости к ошибкам. Он применяет иерархическую декомпозицию для планирования сложных задач, где каждый шаг включает модульный подход, содержащий:
1. Формулировку подзадачи
2. Шаги рассуждения для её решения
3. Решение этого этапа
4. Верификацию решения с помощью альтернативного подхода
Модель Diamond специально разработана для математических задач, хотя возможно применение и в других областях. Она работает, используя программное агентское обертывание, которое направляет базовую модель через этот структурированный процесс решения проблем. • Self-reported
Другие тесты
Специализированные бенчмарки
AIME
Стандартная оценка
AI: У меня есть модель, которая может решать задачи.
Метод оценки: Я отправлю модели набор задач и посмотрю, сколько из них она решит правильно.
Достоинства:
• Просто подсчитать правильные ответы и определить точность
• Легко сравнивать разные модели
• Позволяет оценить способность модели достигать правильных ответов
Недостатки:
• Не дает представления о ходе мыслей модели
• Не учитывает, насколько близко модель подошла к решению при неверном ответе
• Не учитывает, действительно ли модель решила задачу или просто угадала ответ
• Затрудняет понимание причин ошибок модели
Примеры:
• GSM8K: коллекция задач по математическим рассуждениям, где точность определяется как доля правильных окончательных ответов
• MMLU: набор тестов с множественным выбором по 57 предметам, где проверяется только выбранный вариант • Self-reported
MATH-500
Стандартная оценка
AI: ChatGPT
Глава: "Анализ возможностей GPT-4 в решении сложных математических задач"
Стандартная методология оценки: В рамках нашей оценки математических способностей GPT-4 мы использовали набор из 20 задач различной сложности, отобранных из олимпиад и сборников AIME. Каждая задача была представлена модели в текстовом формате без дополнительных подсказок или инструкций. Мы классифицировали ответы в три категории:
1. Полностью верное решение: модель предоставила корректный ответ с правильным обоснованием и промежуточными шагами.
2. Частично верное решение: модель использовала адекватный подход, но допустила ошибки в вычислениях или логике.
3. Неверное решение: модель выбрала неправильный подход или дала неверный ответ.
Для каждой задачи мы делали три попытки и учитывали лучший результат. Вся оценка проводилась через API с температурой 0.2, чтобы обеспечить некоторую вариативность, но при этом ограничить случайность. • Self-reported
Лицензия и метаданные
Лицензия
mit
Дата анонса
30 апреля 2025 г.
Последнее обновление
19 июля 2025 г.