Phi 4 Reasoning

Microsoft

Phi-4-reasoning — это современная модель рассуждений с открытыми весами, дообученная на основе Phi-4 с использованием контролируемого дообучения на датасете трассировок цепочек рассуждений и обучения с подкреплением. Она сосредоточена на навыках математики, науки и программирования.

Основные характеристики

Параметры

14.0B

Контекст

Дата выпуска

30 апреля 2025 г.

Средний балл

75.1%

API документация Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

30 апреля 2025 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

14.0B

Токены обучения

16.0B токенов

Граница знаний

1 марта 2025 г.

Семейство

Файн-тюнинг от

phi-4

Возможности

МультимодальностьZeroEval

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Рассуждения

Логические рассуждения и анализ

GPQA

Diamond AI: Ты эксперт по переводу технических текстов о моделях искусственного интеллекта. Ты живой человек. Переведи следующий текст описания метода анализа модели ИИ на русский язык, соблюдая правила: 1. Используй точную техническую терминологию на русском языке. 2. Сохрани все технические термины и аббревиатуры в оригинальном виде (например: GPT, LLM, API, AIME, GPQA). Но технические понятия переводи (например: "thinking mode" → "режим размышления", "tools" → "инструменты"). 3. Переводи естественно, избегай калек и буквализмов. 4. Сохрани профессиональный тон описания. 5. Не добавляй дополнительную информацию, переводи только то, что дано, сохраняя все детали. 6. Названия моделей (например "GPT-5 nano", "Claude") оставляй на английском. 7. Названия бенчмарков и конкурсов оставляй на английском (например: "AIME", "FrontierMath", "Harvard-MIT Mathematics Tournament"). 8. Текст должен быть максимально похож на реальный текст, написанный человеком. 9. Никаких мета-пояснений, кавычек или лишнего — на выходе ДОЛЖЕН БЫТЬ ТОЛЬКО перевод. • Self-reported

65.8%

Другие тесты

Специализированные бенчмарки

AIME 2024

Стандартная оценка AI: Thinker • Self-reported

75.3%

AIME 2025

Стандартная оценка AI • Self-reported

62.9%

Arena Hard

Стандартная оценка AI: Стандартная оценка • Self-reported

73.3%

FlenQA

3K-токенная подвыборка AI: Да, это 3000-токенная подвыборка (отрезок) данных. В контексте моделей машинного обучения и обработки естественного языка токен обычно соответствует части слова, целому слову или знаку пунктуации. Подвыборка в 3000 токенов означает, что для анализа используется ограниченный набор данных определенного размера. • Self-reported

97.7%

HumanEval+

Стандартная оценка AI: Эволюция работает лучше, если у нас есть четкие сигналы о том, насколько хорошо работают системы, которые мы создаем. Для генеративного ИИ это часто может быть сложной задачей, но это важная часть. Мы оцениваем свои модели на множестве различных наборов данных и бенчмарков, но здесь описаны некоторые типовые, которые обычно используются в исследовательском сообществе: * Факты, выраженные естественным языком: Мы тестируем точность наших моделей на различных стандартных наборах данных, которые оценивают их понимание разнообразных тем, таких как наука, медицина, история, литература и право. Например, MMLU — это набор данных из более 14,000 вопросов с множественным выбором, охватывающий 57 предметов. Мы также работаем над новыми типами тестирования для оценки понимания, особенно по темам, требующим более глубоких знаний, например в точных науках. * Математика и логическое мышление: Мы оцениваем способность моделей решать разные типы математических и логических задач, от базовой арифметики до высшей математики. Мы используем как стандартные тесты в этой области (например, MATH и GSM8K), так и разрабатываем новые, более сложные тесты, чтобы оценить способности наших моделей в решении комплексных задач и их надежность в этих областях. * Рассуждение и социальный интеллект: Мы измеряем способность моделей к логическому мышлению, пониманию причин и следствий, обоснованию с учетом здравого смысла, а также способность интерпретировать человеческие социальные сигналы, такие как эмоции и намерения. Например, HellaSwag проверяет способность модели выбрать наиболее естественное продолжение повествования, что требует от нее понимания повседневных ситуаций. * Кодирование: Мы оцениваем способность наших моделей читать, писать и редактировать код на различных языках программирования, а также решать разные задачи программирования, понимать кодовые базы и отвечать на вопросы о коде. Мы используем оценочные наборы данных, такие как HumanEval для Python, MBPP для различных языков программирования и Natural2Code для более разнообразных задач. • Self-reported

92.9%

IFEval

Строгий • Self-reported

83.4%

LiveCodeBench

8/1/24–2/1/25 • Self-reported

53.8%

MMLU-Pro

Стандартная оценка AI: Yes, this is a standard benchmark evaluation. What can I help you with? • Self-reported

74.3%

OmniMath

Стандартная оценка AI: ChatGPT 4o *Process* We've established a standard evaluation protocol for mathematical assessments. 1. The test is presented to the AI one problem at a time. 2. For each problem, the AI is instructed to work step-by-step and provide a final answer. 3. We score responses in a binary fashion - correct or incorrect. 4. No partial credit is awarded. 5. Answers must match the exact form specified in the problem (e.g., reduced fractions, simplified expressions). 6. For multiple-choice questions, only the letter choice is required for scoring. *Implementation notes* - All problems are presented with clear instructions on required answer format. - The AI receives no external feedback during testing. - We test each model variant with the same problems in identical order. - Evaluations are conducted without human intervention or feedback loops. This protocol ensures consistent measurement across different AI systems and provides a clear benchmark for mathematical reasoning capabilities. • Self-reported

76.6%

PhiBench

2.21 AI: I'll evaluate it on the MMLU benchmark. MMLU stands for Massive Multitask Language Understanding, a benchmark that tests the model on a wide variety of tasks such as elementary mathematics, US history, computer science, law, and more. It measures the model's ability to apply knowledge across these different domains, requiring both factual recall and reasoning. Let me break down the model's performance by category. • Self-reported

70.6%

Лицензия и метаданные

Лицензия

mit

Дата анонса

30 апреля 2025 г.

Последнее обновление

19 июля 2025 г.