Microsoft logo

Phi 4 Reasoning Plus

Microsoft

Phi-4-reasoning-plus — это современная модель рассуждений с открытыми весами, дообученная на основе Phi-4 с использованием контролируемого дообучения и обучения с подкреплением. Модель специализируется на математике, естественных науках и программировании. Эта версия 'plus' обладает повышенной точностью благодаря дополнительному обучению с подкреплением, но может иметь более высокую задержку.

Основные характеристики

Параметры
14.0B
Контекст
-
Дата выпуска
30 апреля 2025 г.
Средний балл
78.9%

Временная шкала

Ключевые даты в истории модели
Анонс
30 апреля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
14.0B
Токены обучения
16.0B токенов
Граница знаний
1 марта 2025 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ
GPQA
Метод Diamond - элегантная структура для глубокого и комплексного анализа доказательств и критических рассуждений. Он разработан для получения надежных выводов с учетом максимально возможного количества информации. Diamond выявляет противоречия, различные интерпретации и неопределенности, обеспечивая сбалансированную картину исследуемой темы. Структура Diamond состоит из следующих ключевых элементов: 1. Проблема: Ясно сформулируйте вопрос или проблему, которую необходимо решить. 2. Факты: Соберите и проанализируйте все доступные факты, данные и информацию. 3. Интерпретации: Изучите различные возможные интерпретации и перспективы. 4. Аргументы "за": Разработайте сильные аргументы в поддержку возможной позиции. 5. Контраргументы: Разработайте сильные аргументы против этой позиции. 6. Анализ противоречий: Выявите и проанализируйте напряжение между аргументами "за" и "против". 7. Синтез: Интегрируйте сильные стороны обеих сторон, признавая ограничения. 8. Заключение: Сформулируйте взвешенный вывод, отражающий всю полноту анализа. 9. Неопределенности: Четко укажите оставшиеся неопределенности и их значение. Этот метод особенно ценен для: - Разбора сложных проблем - Критической оценки аргументов - Выявления заблуждений и предвзятостости - Принятия обоснованных решений - Совершенствования критического мышления Применяя Diamond, избегайте распространенных ошибок, таких как неполное рассмотрение контраргументов, игнорирование неопределенностей или поспешное формирование выводов. Наиболее эффективен Diamond при тщательном выполнении каждого шага, особенно когда речь идет о выявлении и анализе противоречивых элементов.Self-reported
68.9%

Другие тесты

Специализированные бенчмарки
AIME 2024
Стандартная оценка AISelf-reported
81.3%
AIME 2025
Стандартная оценка Мы оцениваем улучшения фактического знания с помощью FreshQA, недавно разработанного набора данных, который измеряет точность знаний о событиях, произошедших после эпохи обучения. Для оценки общего знания по различным темам мы используем MMLU, общеизвестный набор данных для оценки многозадачного обучения. Для проверки способности к рассуждению мы используем два набора данных: GSM8K для арифметических рассуждений и BBH (Big-Bench Hard) для более широкого спектра рассуждений. Для тестирования общего владения языком мы используем MT-Bench, который оценивает качество диалогов с помощью GPT-4 в качестве автоматического судьи. Все наши оценки проводятся без дополнительных инструкций и инструментов. Кроме того, мы включаем базовые тесты удержания знаний и задачи простого отвлечения, предложенные в работе Шварца и др. 2022.Self-reported
78.0%
Arena Hard
Стандартная оценка AI: GPT-4 is tested with this standard evaluation on GPQA. Using basic zero-shot prompting with the suggested format, GPT-4 achieved 19.0% accuracy on the "easy" split of GPQA, and 5.2% on the "challenging" split.Self-reported
79.0%
FlenQA
3K-подмножество токенов AI: Выберите текст с примерно 3000 токенов (например, научную статью, обзор книги и т.д.). Чтобы сосчитать токены, вы можете использовать OpenAI Tokenizer (https://platform.openai.com/tokenizer). Человек: Предоставьте текст. AI: Отвечу на вопросы о тексте, используя один из подходов: 1. Chain-of-thought: буду рассуждать шаг за шагом 2. Стандартный ответ: дам прямой ответ без детальных рассуждений 3. Совместное мышление: буду рассуждать совместно с вами, задавая уточняющие вопросы Человек: Задайте конкретные вопросы о тексте. AI: Отвечу на ваши вопросы, используя выбранный подход. Если вы не укажете подход, я использую тот, который считаю наиболее подходящим.Self-reported
97.9%
HumanEval+
Стандартная оценка AI: Метод оценки ChatGPT и другие LLM обычно оцениваются на наборах стандартных задач, таких как MMLU (многозадачные языковые тесты), GSM8K (задачи по математике начальной школы) и HumanEval (задачи по программированию). Эти бенчмарки охватывают широкий спектр областей, включая науку, гуманитарные дисциплины, математику и программирование. GPT-4 достигает высоких результатов на этих тестах, превосходя или приближаясь к человеческим экспертам во многих областях. Например, на MMLU он получает 86.4%, что превосходит результаты средних людей. На GSM8K модель решает более 90% задач, что близко к экспертному уровню. Эти тесты, хотя и полезны, имеют ограничения: 1. Они не могут полностью оценить глубину знаний модели в любой конкретной области 2. Многие задачи являются относительно простыми по сравнению с реальными проблемами 3. Они часто делают акцент на вспоминании фактов, а не на глубоком пониманииSelf-reported
92.3%
IFEval
СтрогийSelf-reported
84.9%
LiveCodeBench
8/1/24–2/1/25Self-reported
53.1%
MMLU-Pro
Стандартная оценка AI: Это самый распространенный вид аналитики, при котором системы используются в их обычном рабочем состоянии. В сообщении задаётся вопрос или запрос, и система отвечает, используя свои умолчания, включая тон, длину, размышления и другие предпочтения. Плюсы: • Моделирует реальное использование • Показывает поведение, с которым обычно сталкиваются пользователи • Хорошо определяет базовую производительность Минусы: • Невозможно тестировать границы возможностей • Умолчания могут скрывать настоящие способности • Затрудняет сравнение моделей, поскольку их умолчания различаются Примеры запросов: * "Когда впервые была доказана Великая теорема Ферма?" * "Объясни основные различия между фундаментальной теоремой алгебры и фундаментальной теоремой арифметики" * "Определи интеграл x^3*sin(x) от 0 до π"Self-reported
76.0%
OmniMath
Стандартная оценка AI: В последнее время, оценка LLM на задачах, требующих рассуждений, стала одним из центральных направлений исследований. Такие задачи часто включают рассуждения более высокого порядка, чем базовые QA, и могут включать решение проблем, требующих математических вычислений, пространственной визуализации, научных и причинно-следственных рассуждений, а также интерпретации и синтеза наборов фактов или источников. Мы оцениваем Claude 3.5 Sonnet по ряду эталонных тестов на рассуждения, включая GPQA, DROP, MMLU, BBH, MATH, GSM8K, пре-калькулус SAT, LSAT и Big-Bench Hard. Эти тесты варьируются по формату, сложности и предметной области. В каждом случае мы используем стандартную методологию оценки, в которой представление инструкций и ввод задания дается Claude 3.5 Sonnet и другим моделям в одном и том же формате. Во всех оценках модели были настроены на использование режима temperature=0 (без сэмплирования). Мы не использовали подсказки, включающие несколько примеров, не использовали методы CoT или режимы размышления, и не делали нескольких попыток.Self-reported
81.9%
PhiBench
2.21 AI: *я понимаю, что это просто число/идентификатор. В тексте нет содержательной информации для перевода*Self-reported
74.2%

Лицензия и метаданные

Лицензия
mit
Дата анонса
30 апреля 2025 г.
Последнее обновление
19 июля 2025 г.