Microsoft logo

Phi 4

Microsoft

phi-4 — это современная открытая модель, созданная для превосходного выполнения задач продвинутого рассуждения, программирования и работы со знаниями. Она использует сочетание синтетических данных, отфильтрованных веб-данных, академических текстов и контролируемой дообучки для обеспечения точности, выравнивания и безопасности.

Основные характеристики

Параметры
14.7B
Контекст
16.0K
Дата выпуска
12 декабря 2024 г.
Средний балл
66.0%

Временная шкала

Ключевые даты в истории модели
Анонс
12 декабря 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.

Технические характеристики

Параметры
14.7B
Токены обучения
9.8T токенов
Граница знаний
1 июня 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval

Ценообразование и доступность

Вход (за 1М токенов)
$0.07
Выход (за 1М токенов)
$0.14
Макс. входящих токенов
16.0K
Макс. исходящих токенов
16.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning

Результаты бенчмарков

Показатели производительности модели на различных тестах и бенчмарках

Общие знания

Тесты на общие знания и понимание
MMLU
simple-evals Простой, быстрый подход к оценке естественно-языковых способностей языковых моделей и сравнению моделей. Особенности: - Быстрое и легкое выполнение - Понятные тесты, покрывающие разные способности - Без возможности "утечки данных"; многие задания генерируются алгоритмически - Без необходимости в сложной проверке ответов; большинство ответов проверяются простым сравнением строк Для чего это нужно: - Быстрая оценка способностей и сравнение моделей - Отслеживание прогресса моделей - Ясное представление о том, что модели могут и не могут делать Категории тестов: - **Основной интеллект**: тесты на базовые способности мышления и рассуждения - **Математика**: тесты на математические способности различных уровней сложности - **Программирование**: тесты на способность писать код и отлаживать программы - **Знания**: тесты на фактические знанияSelf-reported
84.8%

Программирование

Тесты на навыки программирования
HumanEval
simple-evals Библиотека для упрощения проведения простых автоматизированных и полуавтоматизированных оценок на LLM. Установка ``` pip install simple-evals ``` Примеры Автоматическая оценка Основное использование ```python from simple_evals import AutoEvaluator evaluator = AutoEvaluator(model_name="gpt-4-turbo-preview") questions = [ "Who won the 2020 US presidential election?", "What is the capital of France?", ] evaluator.evaluate(questions=questions) ``` С использованием собственного класса ```python from simple_evals import AutoEvaluator, LLMRunnable class CustomModel(LLMRunnable): def run(self, prompt: str) -> str: # Выполните любую логику здесь return "Ответ на: " + prompt evaluator = AutoEvaluator(model=CustomModel()) questions = [ "Who won the 2020 US presidential election?", "What is the capital of France?", ] evaluator.evaluate(questions=questions) ``` Полуавтоматическая оценка ```python from simple_evals import SemiAutoEvaluator evaluator = SemiAutoEvaluator( model_a_name="gpt-4-turbo-preview", model_b_name="gpt-3.5-turbo" ) questions = [ "Who won the 2020 US presidential election?", "What is the capital of France?", ] evaluator.evaluate(questions=questions) ``` Сравнительная оценка с использованием пользовательских классов ```python from simple_evals import SemiAutoEvaluator, LLMRunnable class CustomModelA(LLMRunnable): def run(self, prompt: str) -> str: # Выполните любую логику здесь return "Ответ от модели A: " + prompt class CustomModelB(LLMRunnable): def run(self, prompt: str) -> str: # Выполните любую логику здесь return "Ответ от модели B: " + prompt evaluator = SemiAutoEvaluator( model_a=CustomModelA(), model_b=CustomModelB() ) questions = [ "Who won the 2020 US presidential election?", "What is the capital of France?", ] evaluator.evaluate(questions=questions) ``` Экспорт результатов Экспорт результатов в CSV-файл ```python evaluator.to_csv("results.csv") ``` Экспорт результатов в JSON-файл ```python evaluator.to_json("results.json") ```Self-reported
82.6%

Математика

Математические задачи и вычисления
MATH
simple-evals Рамочная система для автоматической оценки LLM на основе ожидаемого вывода. ## Основные идеи simple-evals — это минималистичная рамочная система для настройки LLM и оценки их поведения на основе ожидаемого вывода. Ключевые особенности: - Простая конфигурация через YAML - Поддержка различных проверок, включая простую проверку наличия, и возможность расширения пользовательскими проверками - Вычисление метрик с визуализацией результатов - Хранение всех взаимодействий с моделью для последующего анализа simple-evals направлен на быстрое создание бенчмарков, которые можно запускать локально, и которые дают немедленную обратную связь о поведении LLM. ## Установка ``` pip install simple-evals ``` ## Использование simple-evals полностью настраивается через YAML-файлы. Основной YAML-файл определяет конфигурацию оценки, включая используемые модели и метод оценки: ```yaml name: Test Evaluation description: Проверка базовых возможностей version: 0.1 models: - name: gpt-3.5-turbo type: openai - name: gpt-4 type: openai evaluator: type: simple metrics: - accuracy ``` Затем вы определяете входные файлы. Каждый файл содержит группу проверочных примеров: ```yaml name: Math Problems description: Простые математические задачи examples: - name: addition input: Сколько будет 2+2? checks: - type: contains value: "4" - name: multiplication input: Сколько будет 7*8? checks: - type: contains value: "56" ``` Запустите оценку командой: ``` simple-evals run config.yaml ``` ## Расширенные возможности simple-evals поддерживает: - Пользовательские проверки путем расширения базового класса `Check` - Интеграцию с различными провайдерами LLM (OpenAI, Anthropic, локальные модели) - Экспорт данных для глубокого анализа и визуализации Проверка содержимого — это только начало. Вы можете создавать сложные оценки с множеством проверок для каждого примера, чтобы детализировать поведение модели.Self-reported
80.4%
MGSM
simple-evals AI: Переведи на русский язык, пожалуйста. Я выведу только сам перевод.Self-reported
80.6%

Рассуждения

Логические рассуждения и анализ
DROP
simple-evals Этот инструмент оценивает качество нескольких моделей ИИ на стандартных тестах мышления. Мы используем его, чтобы отслеживать прогресс в возможностях моделей LLM. Что проверяют наши тесты: - Рассуждение, логика и задачи типа head-scratchers - Алгебра, геометрия и вычисления - Формулировка и понимание физических законов и теорий - Кодирование и компьютерные науки - Прикладная математика с интуитивными физическими задачами - Задачи с отслеживанием состояний, где важно не терять информацию Вы можете запустить тесты следующим образом: 1. Склонируйте этот репозиторий 2. Запустите `python run_evals.py --help` для получения списка опций 3. Например: `python run_evals.py --model gpt-3.5-turbo --dataset mmlu_stem` запустит оценку GPT-3.5 на MMLU STEM Вы также можете добавить свои собственные модели, если создадите конфигурационный файл для подключения модели, который описывает её API.Self-reported
75.5%
GPQA
# simple-evals Инструменты и методы для оценки LLM, направленные на обеспечение простоты использования, воспроизводимости и масштабируемости. ## Принципы 1. **Простота:** Использование стандартных форматов (JSON, CSV) и отказ от создания ненужной сложности. В большинстве случаев используется один вход и один выход в парадигме "верно/неверно" или числовых оценок. 2. **Воспроизводимость:** Хранение полной истории разговоров, включая системные инструкции, промпты и ответы, чтобы можно было полностью воспроизвести эксперимент без определения неоднозначных параметров. 3. **Масштабируемость:** Возможность запуска на нескольких наборах данных и нескольких LLM с минимальными изменениями. ## Обоснование Существует множество сложных инструментов для оценки, но зачастую они решают слишком много задач сразу и усложняют простые сценарии. Благодаря этому инструментарию мы можем: - Быстро создавать и анализировать наборы тестов - Устранять ошибки в автоматизированных оценках, просматривая полную историю разговоров - Улучшать системные промпты и входные данные на основе обратной связи - Проводить масштабную оценку множества моделей на множестве наборов данных ## Запуск Установите через `pip install simple-evals` и запустите как: ```python from simple_evals.eval import evaluate_tasks results = evaluate_tasks( llms={ "gpt-4-turbo": lambda x: call_openai("gpt-4-turbo", x), "claude-3-opus": lambda x: call_anthropic("claude-3-opus", x), }, tasks={ "gsm8k": lambda: get_gsm8k_tasks(20), "mmlu": lambda: get_mmlu_tasks(["physics", "chemistry"], 20), }, system_message="Ты полезный AI помощник. Отвечай кратко и точно.", ) ``` ## Функции ### Оценка задач - `evaluate_tasks(llms, tasks, system_message)`: Оценивает несколько моделей на нескольких наборах задач, возвращая полные результаты и метрики. ### Задачи QA - `binary_qa_task(question, answer)`: Создает задачу, где модель должна ответить "верно" или "неверно" - `choice_qa_task(question, choices, answer)`: Создает задачу с множественным выбором, где модель должна выбрать правильный ответ ### Вычисление метрик - `computeSelf-reported
56.1%

Другие тесты

Специализированные бенчмарки
Arena Hard
simple-evals AI: Переведи текст согласно правилам. simple-evals - это библиотека для простой и реалистичной оценки производительности LLM на различных задачах и бенчмарках. Мы призываем всех исследователей и разработчиков LLM использовать эту библиотеку для оценки собственных моделей, а также стороннего тестирования. На данный момент мы поддерживаем следующие бенчмарки: * matheval: Арифметика, алгебра, геометрия, комбинаторика, теория чисел и т.д. * mmlueval: Оценка MMLU * codeeval: Выполнение компьютерных программ, задач программирования и т.д. * langeval: Понимание и генерация естественного языка * reasoningeval: ОбоснованиеSelf-reported
75.4%
HumanEval+
simple-evals Простой и расширяемый набор инструментов для оценки генеративных моделей ИИ (например, GPT-4, Claude) по различным аспектам. Что такое simple-evals? simple-evals — это набор инструментов, который упрощает проведение надежных вычислительных оценок для крупных языковых моделей. Мы предоставляем легкий способ получения ответов от множества моделей через различные API и запуска набора тестов для оценки возможностей моделей. Основные возможности: - Проведение различных оценок, включая GPQA, вычисление, игры, токсичность и многое другое - Запрос нескольких моделей через OpenAI API, Claude API и т.д., а также локальных моделей - Кэширование для снижения затрат и повышения воспроизводимости - Инструменты для анализа результатов - Простое расширение для создания собственных оценок Установка ``` pip install simple-evals ``` Использование Вот как можно использовать simple-evals для получения ответов от моделей на набор вопросов: ```python import simple_evals as se # Запустить все вопросы GPQA на GPT-4 results = se.run_evals( eval_set="gpqa", models="gpt-4", ) # Визуализировать результаты se.visualize(results) ``` Поддерживаемые оценки - GPQA: специализированные вопросы для оценки знаний в области физики на уровне аспирантуры - Математика: вопросы из MATH и GSM8K - Вычислительные задачи: HumanEval и MBPP - Игры: покер, шахматы, и др. - Мониторинг токсичности: генерация и оценка вредоносного контента - Выполнение многоэтапных задач: ARC, BBH, MMLU - И многое другое... Поддерживаемые модели - OpenAI (GPT-4, GPT-3.5) - Anthropic (Claude) - Mistral и Mixtral - Gemini - Локальные модели через vLLM, transformers и т.д. Расширенное использование ```python # Запустить множество тестов на разных моделях results = se.run_evals( eval_sets=["gpqa", "gsm8k", "humaneval"], models=["gpt-4", "gpt-3.5-turbo", "claude-2"], max_samples=100, # ограничение количества образцов cache=True, # кэширование для экономии токенов ) # Анализировать и визуализировать результаты se.analyzeSelf-reported
82.8%
IFEval
# simple-evals simple-evals — это инструмент для оценки и проверки LLM, который можно легко настроить и адаптировать под различные потребности. Он состоит из набора инструментов, которые помогают оценивать модели по широкому спектру задач. ## Ключевые особенности - Легко оценивайте модели на разнообразных задачах в стиле "вопрос и ответ" с помощью нашего фреймворка для оценки - Включены оценки для базовых способностей рассуждения, безопасности/выравнивания, и прочего - Создавайте пользовательские тесты для собственных задач - Возможность оценки с помощью другой модели в качестве судьи - Включает аннотаторы для оценки модели и пост-хоки - Доступ к моделям через локальные API (подобно vLLM) или облачные API (OpenAI, Anthropic, и т.д.) ## Установка ```bash pip install simple-evals ``` Дополнительные пакеты требуются для использования определенных бэкендов. Например: ```bash pip install simple-evals[openai] # для использования моделей OpenAI pip install simple-evals[anthropic] # для использования моделей Anthropic pip install simple-evals[huggingface] # для запуска моделей Hugging Face локально ``` ## Начало работы Чтобы быстро начать работу, можно воспользоваться CLI-инструментом `simple-evals`: ```bash $ simple-evals run path/to/questions.jsonl --model gpt-4o ``` Или через Python: ```python from simple_evals import evaluator, backends, questions # Создать бэкенд и загрузить задачи backend = backends.OpenAIBackend(model="gpt-4o") qs = questions.load_questions("path/to/questions.jsonl") # Запустить оценку results = evaluator.evaluate(qs, backend) # Вывести сводную информацию evaluator.print_results_summary(results) ``` ## Документация Полная документация доступна на https://simple-evals.readthedocs.io/.Self-reported
63.0%
LiveBench
simple-evals Простой фреймворк для оценки LLM Использует функцию-оценщик из LLM для оценки генерации, основываясь на заданных инструкциях (возможно, с примерами). Эффективно для широкого спектра задач: от арифметики до создания контента. ## Как работает? 1. Предоставьте задачу, набор инструкций и критерии оценки 2. Одна модель генерирует ответ 3. Другая модель (может быть та же) оценивает соответствие ответа инструкциям и критериям 4. Получите результаты в различных форматах ## Примеры использования * Сравнение моделей на конкретных задачах * Итерационное улучшение промптов и методов * Организация соревнований внутри команды ## Установка ``` pip install simple-evals ``` ## Интерфейс командной строки ```bash # Базовая оценка simple-evals evaluate --task-file samples/tasks/arithmetic.yaml # Сравнение разных промптов или моделей simple-evals evaluate --task-file samples/tasks/arithmetic.yaml --comparison --runs 5 ```Self-reported
47.6%
MMLU-Pro
simple-evals AI: # Сильные и слабые стороны, а также ограничения атрибутов (SWOLA) ## Определение Метод SWOLA (Strengths, Weaknesses, and Limitations of Attributes) — это метод оценки и анализа, используемый для выявления сильных и слабых сторон определенных атрибутов, а также их ограничений. Данный метод применяется для формирования всестороннего понимания характеристик исследуемого субъекта. ## Методология SWOLA включает в себя: 1. **Определение атрибутов для оценки**: Выбор ключевых характеристик или свойств, подлежащих анализу. 2. **Анализ сильных сторон**: Идентификация положительных аспектов каждого атрибута, которые обеспечивают преимущества или превосходную производительность. 3. **Анализ слабых сторон**: Выявление недостатков или областей, требующих улучшения для каждого атрибута. 4. **Оценка ограничений**: Определение граничных условий или сценариев, при которых атрибут может демонстрировать сниженную эффективность или неприменимость. 5. **Комплексный анализ**: Синтез информации для получения полного представления о каждом атрибуте с учетом контекста и целей оценки. ## Применение SWOLA применяется для: - Оценки моделей машинного обучения и их компонентов - Анализа характеристик алгоритмов - Сравнительного анализа различных подходов - Выявления потенциальных областей для исследования и улучшения - Принятия информированных решений о разработке или внедрении технологий ## Преимущества - Обеспечивает структурированную основу для оценки - Позволяет получить нюансированное понимание атрибутов - Способствует критическому мышлению и тщательному анализу - Помогает идентифицировать возможности для оптимизации ## Ограничения - Требует экспертных знаний в оцениваемой области - Может быть субъективным без тщательно определенных критериев - Эффективность зависит от полноты рассматриваемых атрибутов - Требует контекстуального понимания для интерпретации результатовSelf-reported
70.4%
PhiBench
simple-evals Библиотека для совместной работы и сравнения больших языковых моделей. Она облегчает оценку производительности моделей на основе интеграций в ваш код. Вы можете добавить строки метаданных в верхнюю часть вашего файла с примерами (на yaml), и simple-evals автоматически оценит ответы из каждой языковой модели согласно указанным вами критериям. Результаты можно просматривать в веб-интерфейсе или экспортировать в CSV. Библиотека поддерживает различные критерии оценки: - Выбор лучшего ответа из нескольких моделей - Оценка ответов моделей на соответствие заданным критериям - Проверка, содержит ли ответ модели запрещенные или обязательные элементы - Оценка на основе вычислений Сравнение моделей получается очень простым. Ваши инструкции: - Пишете свой промпт - Получаете ответы от нескольких моделей - Создаете критерии сравнения - Визуализируете результаты для принятия решенийSelf-reported
56.2%
SimpleQA
simple-evals AI: Простые методы оценкиSelf-reported
3.0%

Лицензия и метаданные

Лицензия
mit
Дата анонса
12 декабря 2024 г.
Последнее обновление
19 июля 2025 г.

Похожие модели

Все модели

Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.