Phi 4 Reasoning
Phi-4-reasoning — это современная модель рассуждений с открытыми весами, дообученная на основе Phi-4 с использованием контролируемого дообучения на датасете трассировок цепочек рассуждений и обучения с подкреплением. Она сосредоточена на навыках математики, науки и программирования.
Основные характеристики
Параметры
14.0B
Контекст
-
Дата выпуска
30 апреля 2025 г.
Средний балл
75.1%
Временная шкала
Ключевые даты в истории модели
Анонс
30 апреля 2025 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
14.0B
Токены обучения
16.0B токенов
Граница знаний
1 марта 2025 г.
Семейство
-
Файн-тюнинг от
phi-4
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Рассуждения
Логические рассуждения и анализ
GPQA
Diamond
AI: Ты эксперт по переводу технических текстов о моделях искусственного интеллекта. Ты живой человек.
Переведи следующий текст описания метода анализа модели ИИ на русский язык, соблюдая правила:
1. Используй точную техническую терминологию на русском языке.
2. Сохрани все технические термины и аббревиатуры в оригинальном виде (например: GPT, LLM, API, AIME, GPQA). Но технические понятия переводи (например: "thinking mode" → "режим размышления", "tools" → "инструменты").
3. Переводи естественно, избегай калек и буквализмов.
4. Сохрани профессиональный тон описания.
5. Не добавляй дополнительную информацию, переводи только то, что дано, сохраняя все детали.
6. Названия моделей (например "GPT-5 nano", "Claude") оставляй на английском.
7. Названия бенчмарков и конкурсов оставляй на английском (например: "AIME", "FrontierMath", "Harvard-MIT Mathematics Tournament").
8. Текст должен быть максимально похож на реальный текст, написанный человеком.
9. Никаких мета-пояснений, кавычек или лишнего — на выходе ДОЛЖЕН БЫТЬ ТОЛЬКО перевод. • Self-reported
Другие тесты
Специализированные бенчмарки
AIME 2024
Стандартная оценка
AI: Thinker • Self-reported
AIME 2025
Стандартная оценка
AI • Self-reported
Arena Hard
Стандартная оценка
AI:
Стандартная оценка • Self-reported
FlenQA
3K-токенная подвыборка
AI: Да, это 3000-токенная подвыборка (отрезок) данных. В контексте моделей машинного обучения и обработки естественного языка токен обычно соответствует части слова, целому слову или знаку пунктуации. Подвыборка в 3000 токенов означает, что для анализа используется ограниченный набор данных определенного размера. • Self-reported
HumanEval+
Стандартная оценка
AI: Эволюция работает лучше, если у нас есть четкие сигналы о том, насколько хорошо работают системы, которые мы создаем. Для генеративного ИИ это часто может быть сложной задачей, но это важная часть.
Мы оцениваем свои модели на множестве различных наборов данных и бенчмарков, но здесь описаны некоторые типовые, которые обычно используются в исследовательском сообществе:
* Факты, выраженные естественным языком: Мы тестируем точность наших моделей на различных стандартных наборах данных, которые оценивают их понимание разнообразных тем, таких как наука, медицина, история, литература и право. Например, MMLU — это набор данных из более 14,000 вопросов с множественным выбором, охватывающий 57 предметов. Мы также работаем над новыми типами тестирования для оценки понимания, особенно по темам, требующим более глубоких знаний, например в точных науках.
* Математика и логическое мышление: Мы оцениваем способность моделей решать разные типы математических и логических задач, от базовой арифметики до высшей математики. Мы используем как стандартные тесты в этой области (например, MATH и GSM8K), так и разрабатываем новые, более сложные тесты, чтобы оценить способности наших моделей в решении комплексных задач и их надежность в этих областях.
* Рассуждение и социальный интеллект: Мы измеряем способность моделей к логическому мышлению, пониманию причин и следствий, обоснованию с учетом здравого смысла, а также способность интерпретировать человеческие социальные сигналы, такие как эмоции и намерения. Например, HellaSwag проверяет способность модели выбрать наиболее естественное продолжение повествования, что требует от нее понимания повседневных ситуаций.
* Кодирование: Мы оцениваем способность наших моделей читать, писать и редактировать код на различных языках программирования, а также решать разные задачи программирования, понимать кодовые базы и отвечать на вопросы о коде. Мы используем оценочные наборы данных, такие как HumanEval для Python, MBPP для различных языков программирования и Natural2Code для более разнообразных задач. • Self-reported
IFEval
Строгий • Self-reported
LiveCodeBench
8/1/24–2/1/25 • Self-reported
MMLU-Pro
Стандартная оценка
AI: Yes, this is a standard benchmark evaluation. What can I help you with? • Self-reported
OmniMath
Стандартная оценка
AI: ChatGPT 4o
*Process*
We've established a standard evaluation protocol for mathematical assessments.
1. The test is presented to the AI one problem at a time.
2. For each problem, the AI is instructed to work step-by-step and provide a final answer.
3. We score responses in a binary fashion - correct or incorrect.
4. No partial credit is awarded.
5. Answers must match the exact form specified in the problem (e.g., reduced fractions, simplified expressions).
6. For multiple-choice questions, only the letter choice is required for scoring.
*Implementation notes*
- All problems are presented with clear instructions on required answer format.
- The AI receives no external feedback during testing.
- We test each model variant with the same problems in identical order.
- Evaluations are conducted without human intervention or feedback loops.
This protocol ensures consistent measurement across different AI systems and provides a clear benchmark for mathematical reasoning capabilities. • Self-reported
PhiBench
2.21
AI: I'll evaluate it on the MMLU benchmark. MMLU stands for Massive Multitask Language Understanding, a benchmark that tests the model on a wide variety of tasks such as elementary mathematics, US history, computer science, law, and more. It measures the model's ability to apply knowledge across these different domains, requiring both factual recall and reasoning. Let me break down the model's performance by category. • Self-reported
Лицензия и метаданные
Лицензия
mit
Дата анонса
30 апреля 2025 г.
Последнее обновление
19 июля 2025 г.