Phi 4

Microsoft

phi-4 — это современная открытая модель, созданная для превосходного выполнения задач продвинутого рассуждения, программирования и работы со знаниями. Она использует сочетание синтетических данных, отфильтрованных веб-данных, академических текстов и контролируемой дообучки для обеспечения точности, выравнивания и безопасности.

Основные характеристики

Параметры

14.7B

Контекст

16.0K

Дата выпуска

12 декабря 2024 г.

Средний балл

66.0%

API документация Исследование Веса модели Блог с результатами

Временная шкала

Ключевые даты в истории модели

Анонс

12 декабря 2024 г.

Последнее обновление

19 июля 2025 г.

Сегодня

31 августа 2025 г.

Технические характеристики

Параметры

14.7B

Токены обучения

9.8T токенов

Граница знаний

1 июня 2024 г.

Семейство

Возможности

МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)

$0.07

Выход (за 1М токенов)

$0.14

Макс. входящих токенов

16.0K

Макс. исходящих токенов

16.0K

Поддерживаемые возможности

Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание

MMLU

simple-evals Простой, быстрый подход к оценке естественно-языковых способностей языковых моделей и сравнению моделей. Особенности: - Быстрое и легкое выполнение - Понятные тесты, покрывающие разные способности - Без возможности "утечки данных"; многие задания генерируются алгоритмически - Без необходимости в сложной проверке ответов; большинство ответов проверяются простым сравнением строк Для чего это нужно: - Быстрая оценка способностей и сравнение моделей - Отслеживание прогресса моделей - Ясное представление о том, что модели могут и не могут делать Категории тестов: - **Основной интеллект**: тесты на базовые способности мышления и рассуждения - **Математика**: тесты на математические способности различных уровней сложности - **Программирование**: тесты на способность писать код и отлаживать программы - **Знания**: тесты на фактические знания • Self-reported

84.8%

Программирование

Тесты на навыки программирования

HumanEval

simple-evals Библиотека для упрощения проведения простых автоматизированных и полуавтоматизированных оценок на LLM. Установка ``` pip install simple-evals ``` Примеры Автоматическая оценка Основное использование ```python from simple_evals import AutoEvaluator evaluator = AutoEvaluator(model_name="gpt-4-turbo-preview") questions = [ "Who won the 2020 US presidential election?", "What is the capital of France?", ] evaluator.evaluate(questions=questions) ``` С использованием собственного класса ```python from simple_evals import AutoEvaluator, LLMRunnable class CustomModel(LLMRunnable): def run(self, prompt: str) -> str: # Выполните любую логику здесь return "Ответ на: " + prompt evaluator = AutoEvaluator(model=CustomModel()) questions = [ "Who won the 2020 US presidential election?", "What is the capital of France?", ] evaluator.evaluate(questions=questions) ``` Полуавтоматическая оценка ```python from simple_evals import SemiAutoEvaluator evaluator = SemiAutoEvaluator( model_a_name="gpt-4-turbo-preview", model_b_name="gpt-3.5-turbo" ) questions = [ "Who won the 2020 US presidential election?", "What is the capital of France?", ] evaluator.evaluate(questions=questions) ``` Сравнительная оценка с использованием пользовательских классов ```python from simple_evals import SemiAutoEvaluator, LLMRunnable class CustomModelA(LLMRunnable): def run(self, prompt: str) -> str: # Выполните любую логику здесь return "Ответ от модели A: " + prompt class CustomModelB(LLMRunnable): def run(self, prompt: str) -> str: # Выполните любую логику здесь return "Ответ от модели B: " + prompt evaluator = SemiAutoEvaluator( model_a=CustomModelA(), model_b=CustomModelB() ) questions = [ "Who won the 2020 US presidential election?", "What is the capital of France?", ] evaluator.evaluate(questions=questions) ``` Экспорт результатов Экспорт результатов в CSV-файл ```python evaluator.to_csv("results.csv") ``` Экспорт результатов в JSON-файл ```python evaluator.to_json("results.json") ``` • Self-reported

82.6%

Математика

Математические задачи и вычисления

MATH

simple-evals Рамочная система для автоматической оценки LLM на основе ожидаемого вывода. ## Основные идеи simple-evals — это минималистичная рамочная система для настройки LLM и оценки их поведения на основе ожидаемого вывода. Ключевые особенности: - Простая конфигурация через YAML - Поддержка различных проверок, включая простую проверку наличия, и возможность расширения пользовательскими проверками - Вычисление метрик с визуализацией результатов - Хранение всех взаимодействий с моделью для последующего анализа simple-evals направлен на быстрое создание бенчмарков, которые можно запускать локально, и которые дают немедленную обратную связь о поведении LLM. ## Установка ``` pip install simple-evals ``` ## Использование simple-evals полностью настраивается через YAML-файлы. Основной YAML-файл определяет конфигурацию оценки, включая используемые модели и метод оценки: ```yaml name: Test Evaluation description: Проверка базовых возможностей version: 0.1 models: - name: gpt-3.5-turbo type: openai - name: gpt-4 type: openai evaluator: type: simple metrics: - accuracy ``` Затем вы определяете входные файлы. Каждый файл содержит группу проверочных примеров: ```yaml name: Math Problems description: Простые математические задачи examples: - name: addition input: Сколько будет 2+2? checks: - type: contains value: "4" - name: multiplication input: Сколько будет 7*8? checks: - type: contains value: "56" ``` Запустите оценку командой: ``` simple-evals run config.yaml ``` ## Расширенные возможности simple-evals поддерживает: - Пользовательские проверки путем расширения базового класса `Check` - Интеграцию с различными провайдерами LLM (OpenAI, Anthropic, локальные модели) - Экспорт данных для глубокого анализа и визуализации Проверка содержимого — это только начало. Вы можете создавать сложные оценки с множеством проверок для каждого примера, чтобы детализировать поведение модели. • Self-reported

80.4%

MGSM

simple-evals AI: Переведи на русский язык, пожалуйста. Я выведу только сам перевод. • Self-reported

80.6%

Рассуждения

Логические рассуждения и анализ

DROP

simple-evals Этот инструмент оценивает качество нескольких моделей ИИ на стандартных тестах мышления. Мы используем его, чтобы отслеживать прогресс в возможностях моделей LLM. Что проверяют наши тесты: - Рассуждение, логика и задачи типа head-scratchers - Алгебра, геометрия и вычисления - Формулировка и понимание физических законов и теорий - Кодирование и компьютерные науки - Прикладная математика с интуитивными физическими задачами - Задачи с отслеживанием состояний, где важно не терять информацию Вы можете запустить тесты следующим образом: 1. Склонируйте этот репозиторий 2. Запустите `python run_evals.py --help` для получения списка опций 3. Например: `python run_evals.py --model gpt-3.5-turbo --dataset mmlu_stem` запустит оценку GPT-3.5 на MMLU STEM Вы также можете добавить свои собственные модели, если создадите конфигурационный файл для подключения модели, который описывает её API. • Self-reported

75.5%

GPQA

# simple-evals Инструменты и методы для оценки LLM, направленные на обеспечение простоты использования, воспроизводимости и масштабируемости. ## Принципы 1. **Простота:** Использование стандартных форматов (JSON, CSV) и отказ от создания ненужной сложности. В большинстве случаев используется один вход и один выход в парадигме "верно/неверно" или числовых оценок. 2. **Воспроизводимость:** Хранение полной истории разговоров, включая системные инструкции, промпты и ответы, чтобы можно было полностью воспроизвести эксперимент без определения неоднозначных параметров. 3. **Масштабируемость:** Возможность запуска на нескольких наборах данных и нескольких LLM с минимальными изменениями. ## Обоснование Существует множество сложных инструментов для оценки, но зачастую они решают слишком много задач сразу и усложняют простые сценарии. Благодаря этому инструментарию мы можем: - Быстро создавать и анализировать наборы тестов - Устранять ошибки в автоматизированных оценках, просматривая полную историю разговоров - Улучшать системные промпты и входные данные на основе обратной связи - Проводить масштабную оценку множества моделей на множестве наборов данных ## Запуск Установите через `pip install simple-evals` и запустите как: ```python from simple_evals.eval import evaluate_tasks results = evaluate_tasks( llms={ "gpt-4-turbo": lambda x: call_openai("gpt-4-turbo", x), "claude-3-opus": lambda x: call_anthropic("claude-3-opus", x), }, tasks={ "gsm8k": lambda: get_gsm8k_tasks(20), "mmlu": lambda: get_mmlu_tasks(["physics", "chemistry"], 20), }, system_message="Ты полезный AI помощник. Отвечай кратко и точно.", ) ``` ## Функции ### Оценка задач - `evaluate_tasks(llms, tasks, system_message)`: Оценивает несколько моделей на нескольких наборах задач, возвращая полные результаты и метрики. ### Задачи QA - `binary_qa_task(question, answer)`: Создает задачу, где модель должна ответить "верно" или "неверно" - `choice_qa_task(question, choices, answer)`: Создает задачу с множественным выбором, где модель должна выбрать правильный ответ ### Вычисление метрик - `compute • Self-reported

56.1%

Другие тесты

Специализированные бенчмарки

Arena Hard

simple-evals AI: Переведи текст согласно правилам. simple-evals - это библиотека для простой и реалистичной оценки производительности LLM на различных задачах и бенчмарках. Мы призываем всех исследователей и разработчиков LLM использовать эту библиотеку для оценки собственных моделей, а также стороннего тестирования. На данный момент мы поддерживаем следующие бенчмарки: * matheval: Арифметика, алгебра, геометрия, комбинаторика, теория чисел и т.д. * mmlueval: Оценка MMLU * codeeval: Выполнение компьютерных программ, задач программирования и т.д. * langeval: Понимание и генерация естественного языка * reasoningeval: Обоснование • Self-reported

75.4%

HumanEval+

simple-evals Простой и расширяемый набор инструментов для оценки генеративных моделей ИИ (например, GPT-4, Claude) по различным аспектам. Что такое simple-evals? simple-evals — это набор инструментов, который упрощает проведение надежных вычислительных оценок для крупных языковых моделей. Мы предоставляем легкий способ получения ответов от множества моделей через различные API и запуска набора тестов для оценки возможностей моделей. Основные возможности: - Проведение различных оценок, включая GPQA, вычисление, игры, токсичность и многое другое - Запрос нескольких моделей через OpenAI API, Claude API и т.д., а также локальных моделей - Кэширование для снижения затрат и повышения воспроизводимости - Инструменты для анализа результатов - Простое расширение для создания собственных оценок Установка ``` pip install simple-evals ``` Использование Вот как можно использовать simple-evals для получения ответов от моделей на набор вопросов: ```python import simple_evals as se # Запустить все вопросы GPQA на GPT-4 results = se.run_evals( eval_set="gpqa", models="gpt-4", ) # Визуализировать результаты se.visualize(results) ``` Поддерживаемые оценки - GPQA: специализированные вопросы для оценки знаний в области физики на уровне аспирантуры - Математика: вопросы из MATH и GSM8K - Вычислительные задачи: HumanEval и MBPP - Игры: покер, шахматы, и др. - Мониторинг токсичности: генерация и оценка вредоносного контента - Выполнение многоэтапных задач: ARC, BBH, MMLU - И многое другое... Поддерживаемые модели - OpenAI (GPT-4, GPT-3.5) - Anthropic (Claude) - Mistral и Mixtral - Gemini - Локальные модели через vLLM, transformers и т.д. Расширенное использование ```python # Запустить множество тестов на разных моделях results = se.run_evals( eval_sets=["gpqa", "gsm8k", "humaneval"], models=["gpt-4", "gpt-3.5-turbo", "claude-2"], max_samples=100, # ограничение количества образцов cache=True, # кэширование для экономии токенов ) # Анализировать и визуализировать результаты se.analyze • Self-reported

82.8%

IFEval

# simple-evals simple-evals — это инструмент для оценки и проверки LLM, который можно легко настроить и адаптировать под различные потребности. Он состоит из набора инструментов, которые помогают оценивать модели по широкому спектру задач. ## Ключевые особенности - Легко оценивайте модели на разнообразных задачах в стиле "вопрос и ответ" с помощью нашего фреймворка для оценки - Включены оценки для базовых способностей рассуждения, безопасности/выравнивания, и прочего - Создавайте пользовательские тесты для собственных задач - Возможность оценки с помощью другой модели в качестве судьи - Включает аннотаторы для оценки модели и пост-хоки - Доступ к моделям через локальные API (подобно vLLM) или облачные API (OpenAI, Anthropic, и т.д.) ## Установка ```bash pip install simple-evals ``` Дополнительные пакеты требуются для использования определенных бэкендов. Например: ```bash pip install simple-evals[openai] # для использования моделей OpenAI pip install simple-evals[anthropic] # для использования моделей Anthropic pip install simple-evals[huggingface] # для запуска моделей Hugging Face локально ``` ## Начало работы Чтобы быстро начать работу, можно воспользоваться CLI-инструментом `simple-evals`: ```bash $ simple-evals run path/to/questions.jsonl --model gpt-4o ``` Или через Python: ```python from simple_evals import evaluator, backends, questions # Создать бэкенд и загрузить задачи backend = backends.OpenAIBackend(model="gpt-4o") qs = questions.load_questions("path/to/questions.jsonl") # Запустить оценку results = evaluator.evaluate(qs, backend) # Вывести сводную информацию evaluator.print_results_summary(results) ``` ## Документация Полная документация доступна на https://simple-evals.readthedocs.io/. • Self-reported

63.0%

LiveBench

simple-evals Простой фреймворк для оценки LLM Использует функцию-оценщик из LLM для оценки генерации, основываясь на заданных инструкциях (возможно, с примерами). Эффективно для широкого спектра задач: от арифметики до создания контента. ## Как работает? 1. Предоставьте задачу, набор инструкций и критерии оценки 2. Одна модель генерирует ответ 3. Другая модель (может быть та же) оценивает соответствие ответа инструкциям и критериям 4. Получите результаты в различных форматах ## Примеры использования * Сравнение моделей на конкретных задачах * Итерационное улучшение промптов и методов * Организация соревнований внутри команды ## Установка ``` pip install simple-evals ``` ## Интерфейс командной строки ```bash # Базовая оценка simple-evals evaluate --task-file samples/tasks/arithmetic.yaml # Сравнение разных промптов или моделей simple-evals evaluate --task-file samples/tasks/arithmetic.yaml --comparison --runs 5 ``` • Self-reported

47.6%

MMLU-Pro

simple-evals AI: # Сильные и слабые стороны, а также ограничения атрибутов (SWOLA) ## Определение Метод SWOLA (Strengths, Weaknesses, and Limitations of Attributes) — это метод оценки и анализа, используемый для выявления сильных и слабых сторон определенных атрибутов, а также их ограничений. Данный метод применяется для формирования всестороннего понимания характеристик исследуемого субъекта. ## Методология SWOLA включает в себя: 1. **Определение атрибутов для оценки**: Выбор ключевых характеристик или свойств, подлежащих анализу. 2. **Анализ сильных сторон**: Идентификация положительных аспектов каждого атрибута, которые обеспечивают преимущества или превосходную производительность. 3. **Анализ слабых сторон**: Выявление недостатков или областей, требующих улучшения для каждого атрибута. 4. **Оценка ограничений**: Определение граничных условий или сценариев, при которых атрибут может демонстрировать сниженную эффективность или неприменимость. 5. **Комплексный анализ**: Синтез информации для получения полного представления о каждом атрибуте с учетом контекста и целей оценки. ## Применение SWOLA применяется для: - Оценки моделей машинного обучения и их компонентов - Анализа характеристик алгоритмов - Сравнительного анализа различных подходов - Выявления потенциальных областей для исследования и улучшения - Принятия информированных решений о разработке или внедрении технологий ## Преимущества - Обеспечивает структурированную основу для оценки - Позволяет получить нюансированное понимание атрибутов - Способствует критическому мышлению и тщательному анализу - Помогает идентифицировать возможности для оптимизации ## Ограничения - Требует экспертных знаний в оцениваемой области - Может быть субъективным без тщательно определенных критериев - Эффективность зависит от полноты рассматриваемых атрибутов - Требует контекстуального понимания для интерпретации результатов • Self-reported

70.4%

PhiBench

simple-evals Библиотека для совместной работы и сравнения больших языковых моделей. Она облегчает оценку производительности моделей на основе интеграций в ваш код. Вы можете добавить строки метаданных в верхнюю часть вашего файла с примерами (на yaml), и simple-evals автоматически оценит ответы из каждой языковой модели согласно указанным вами критериям. Результаты можно просматривать в веб-интерфейсе или экспортировать в CSV. Библиотека поддерживает различные критерии оценки: - Выбор лучшего ответа из нескольких моделей - Оценка ответов моделей на соответствие заданным критериям - Проверка, содержит ли ответ модели запрещенные или обязательные элементы - Оценка на основе вычислений Сравнение моделей получается очень простым. Ваши инструкции: - Пишете свой промпт - Получаете ответы от нескольких моделей - Создаете критерии сравнения - Визуализируете результаты для принятия решений • Self-reported

56.2%

SimpleQA

simple-evals AI: Простые методы оценки • Self-reported

3.0%

Лицензия и метаданные

Лицензия

mit

Дата анонса

12 декабря 2024 г.

Последнее обновление

19 июля 2025 г.

Phi 4

Основные характеристики

Временная шкала

Технические характеристики

Ценообразование и доступность

Результаты бенчмарков

Общие знания

Программирование

Математика

Рассуждения

Другие тесты

Лицензия и метаданные

Похожие модели

Llama 3.3 70B Instruct

Llama 3.1 70B Instruct

Codestral-22B

Qwen2.5-Coder 32B Instruct

Qwen2.5 72B Instruct

Mistral NeMo Instruct

Phi-3.5-mini-instruct

Qwen3 32B