Phi 4
phi-4 — это современная открытая модель, созданная для превосходного выполнения задач продвинутого рассуждения, программирования и работы со знаниями. Она использует сочетание синтетических данных, отфильтрованных веб-данных, академических текстов и контролируемой дообучки для обеспечения точности, выравнивания и безопасности.
Основные характеристики
Параметры
14.7B
Контекст
16.0K
Дата выпуска
12 декабря 2024 г.
Средний балл
66.0%
Временная шкала
Ключевые даты в истории модели
Анонс
12 декабря 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
14.7B
Токены обучения
9.8T токенов
Граница знаний
1 июня 2024 г.
Семейство
-
Возможности
МультимодальностьZeroEval
Ценообразование и доступность
Вход (за 1М токенов)
$0.07
Выход (за 1М токенов)
$0.14
Макс. входящих токенов
16.0K
Макс. исходящих токенов
16.0K
Поддерживаемые возможности
Function CallingStructured OutputCode ExecutionWeb SearchBatch InferenceFine-tuning
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
MMLU
simple-evals
Простой, быстрый подход к оценке естественно-языковых способностей языковых моделей и сравнению моделей.
Особенности:
- Быстрое и легкое выполнение
- Понятные тесты, покрывающие разные способности
- Без возможности "утечки данных"; многие задания генерируются алгоритмически
- Без необходимости в сложной проверке ответов; большинство ответов проверяются простым сравнением строк
Для чего это нужно:
- Быстрая оценка способностей и сравнение моделей
- Отслеживание прогресса моделей
- Ясное представление о том, что модели могут и не могут делать
Категории тестов:
- **Основной интеллект**: тесты на базовые способности мышления и рассуждения
- **Математика**: тесты на математические способности различных уровней сложности
- **Программирование**: тесты на способность писать код и отлаживать программы
- **Знания**: тесты на фактические знания • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
simple-evals
Библиотека для упрощения проведения простых автоматизированных и полуавтоматизированных оценок на LLM.
Установка
```
pip install simple-evals
```
Примеры
Автоматическая оценка
Основное использование
```python
from simple_evals import AutoEvaluator
evaluator = AutoEvaluator(model_name="gpt-4-turbo-preview")
questions = [
"Who won the 2020 US presidential election?",
"What is the capital of France?",
]
evaluator.evaluate(questions=questions)
```
С использованием собственного класса
```python
from simple_evals import AutoEvaluator, LLMRunnable
class CustomModel(LLMRunnable):
def run(self, prompt: str) -> str:
# Выполните любую логику здесь
return "Ответ на: " + prompt
evaluator = AutoEvaluator(model=CustomModel())
questions = [
"Who won the 2020 US presidential election?",
"What is the capital of France?",
]
evaluator.evaluate(questions=questions)
```
Полуавтоматическая оценка
```python
from simple_evals import SemiAutoEvaluator
evaluator = SemiAutoEvaluator(
model_a_name="gpt-4-turbo-preview",
model_b_name="gpt-3.5-turbo"
)
questions = [
"Who won the 2020 US presidential election?",
"What is the capital of France?",
]
evaluator.evaluate(questions=questions)
```
Сравнительная оценка с использованием пользовательских классов
```python
from simple_evals import SemiAutoEvaluator, LLMRunnable
class CustomModelA(LLMRunnable):
def run(self, prompt: str) -> str:
# Выполните любую логику здесь
return "Ответ от модели A: " + prompt
class CustomModelB(LLMRunnable):
def run(self, prompt: str) -> str:
# Выполните любую логику здесь
return "Ответ от модели B: " + prompt
evaluator = SemiAutoEvaluator(
model_a=CustomModelA(),
model_b=CustomModelB()
)
questions = [
"Who won the 2020 US presidential election?",
"What is the capital of France?",
]
evaluator.evaluate(questions=questions)
```
Экспорт результатов
Экспорт результатов в CSV-файл
```python
evaluator.to_csv("results.csv")
```
Экспорт результатов в JSON-файл
```python
evaluator.to_json("results.json")
``` • Self-reported
Математика
Математические задачи и вычисления
MATH
simple-evals
Рамочная система для автоматической оценки LLM на основе ожидаемого вывода.
## Основные идеи
simple-evals — это минималистичная рамочная система для настройки LLM и оценки их поведения на основе ожидаемого вывода. Ключевые особенности:
- Простая конфигурация через YAML
- Поддержка различных проверок, включая простую проверку наличия, и возможность расширения пользовательскими проверками
- Вычисление метрик с визуализацией результатов
- Хранение всех взаимодействий с моделью для последующего анализа
simple-evals направлен на быстрое создание бенчмарков, которые можно запускать локально, и которые дают немедленную обратную связь о поведении LLM.
## Установка
```
pip install simple-evals
```
## Использование
simple-evals полностью настраивается через YAML-файлы.
Основной YAML-файл определяет конфигурацию оценки, включая используемые модели и метод оценки:
```yaml
name: Test Evaluation
description: Проверка базовых возможностей
version: 0.1
models:
- name: gpt-3.5-turbo
type: openai
- name: gpt-4
type: openai
evaluator:
type: simple
metrics:
- accuracy
```
Затем вы определяете входные файлы. Каждый файл содержит группу проверочных примеров:
```yaml
name: Math Problems
description: Простые математические задачи
examples:
- name: addition
input: Сколько будет 2+2?
checks:
- type: contains
value: "4"
- name: multiplication
input: Сколько будет 7*8?
checks:
- type: contains
value: "56"
```
Запустите оценку командой:
```
simple-evals run config.yaml
```
## Расширенные возможности
simple-evals поддерживает:
- Пользовательские проверки путем расширения базового класса `Check`
- Интеграцию с различными провайдерами LLM (OpenAI, Anthropic, локальные модели)
- Экспорт данных для глубокого анализа и визуализации
Проверка содержимого — это только начало. Вы можете создавать сложные оценки с множеством проверок для каждого примера, чтобы детализировать поведение модели. • Self-reported
MGSM
simple-evals
AI: Переведи на русский язык, пожалуйста. Я выведу только сам перевод. • Self-reported
Рассуждения
Логические рассуждения и анализ
DROP
simple-evals
Этот инструмент оценивает качество нескольких моделей ИИ на стандартных тестах мышления. Мы используем его, чтобы отслеживать прогресс в возможностях моделей LLM.
Что проверяют наши тесты:
- Рассуждение, логика и задачи типа head-scratchers
- Алгебра, геометрия и вычисления
- Формулировка и понимание физических законов и теорий
- Кодирование и компьютерные науки
- Прикладная математика с интуитивными физическими задачами
- Задачи с отслеживанием состояний, где важно не терять информацию
Вы можете запустить тесты следующим образом:
1. Склонируйте этот репозиторий
2. Запустите `python run_evals.py --help` для получения списка опций
3. Например: `python run_evals.py --model gpt-3.5-turbo --dataset mmlu_stem` запустит оценку GPT-3.5 на MMLU STEM
Вы также можете добавить свои собственные модели, если создадите конфигурационный файл для подключения модели, который описывает её API. • Self-reported
GPQA
# simple-evals
Инструменты и методы для оценки LLM, направленные на обеспечение простоты использования, воспроизводимости и масштабируемости.
## Принципы
1. **Простота:** Использование стандартных форматов (JSON, CSV) и отказ от создания ненужной сложности. В большинстве случаев используется один вход и один выход в парадигме "верно/неверно" или числовых оценок.
2. **Воспроизводимость:** Хранение полной истории разговоров, включая системные инструкции, промпты и ответы, чтобы можно было полностью воспроизвести эксперимент без определения неоднозначных параметров.
3. **Масштабируемость:** Возможность запуска на нескольких наборах данных и нескольких LLM с минимальными изменениями.
## Обоснование
Существует множество сложных инструментов для оценки, но зачастую они решают слишком много задач сразу и усложняют простые сценарии. Благодаря этому инструментарию мы можем:
- Быстро создавать и анализировать наборы тестов
- Устранять ошибки в автоматизированных оценках, просматривая полную историю разговоров
- Улучшать системные промпты и входные данные на основе обратной связи
- Проводить масштабную оценку множества моделей на множестве наборов данных
## Запуск
Установите через `pip install simple-evals` и запустите как:
```python
from simple_evals.eval import evaluate_tasks
results = evaluate_tasks(
llms={
"gpt-4-turbo": lambda x: call_openai("gpt-4-turbo", x),
"claude-3-opus": lambda x: call_anthropic("claude-3-opus", x),
},
tasks={
"gsm8k": lambda: get_gsm8k_tasks(20),
"mmlu": lambda: get_mmlu_tasks(["physics", "chemistry"], 20),
},
system_message="Ты полезный AI помощник. Отвечай кратко и точно.",
)
```
## Функции
### Оценка задач
- `evaluate_tasks(llms, tasks, system_message)`: Оценивает несколько моделей на нескольких наборах задач, возвращая полные результаты и метрики.
### Задачи QA
- `binary_qa_task(question, answer)`: Создает задачу, где модель должна ответить "верно" или "неверно"
- `choice_qa_task(question, choices, answer)`: Создает задачу с множественным выбором, где модель должна выбрать правильный ответ
### Вычисление метрик
- `compute • Self-reported
Другие тесты
Специализированные бенчмарки
Arena Hard
simple-evals
AI: Переведи текст согласно правилам.
simple-evals - это библиотека для простой и реалистичной оценки производительности LLM на различных задачах и бенчмарках. Мы призываем всех исследователей и разработчиков LLM использовать эту библиотеку для оценки собственных моделей, а также стороннего тестирования.
На данный момент мы поддерживаем следующие бенчмарки:
* matheval: Арифметика, алгебра, геометрия, комбинаторика, теория чисел и т.д.
* mmlueval: Оценка MMLU
* codeeval: Выполнение компьютерных программ, задач программирования и т.д.
* langeval: Понимание и генерация естественного языка
* reasoningeval: Обоснование • Self-reported
HumanEval+
simple-evals
Простой и расширяемый набор инструментов для оценки генеративных моделей ИИ (например, GPT-4, Claude) по различным аспектам.
Что такое simple-evals?
simple-evals — это набор инструментов, который упрощает проведение надежных вычислительных оценок для крупных языковых моделей. Мы предоставляем легкий способ получения ответов от множества моделей через различные API и запуска набора тестов для оценки возможностей моделей.
Основные возможности:
- Проведение различных оценок, включая GPQA, вычисление, игры, токсичность и многое другое
- Запрос нескольких моделей через OpenAI API, Claude API и т.д., а также локальных моделей
- Кэширование для снижения затрат и повышения воспроизводимости
- Инструменты для анализа результатов
- Простое расширение для создания собственных оценок
Установка
```
pip install simple-evals
```
Использование
Вот как можно использовать simple-evals для получения ответов от моделей на набор вопросов:
```python
import simple_evals as se
# Запустить все вопросы GPQA на GPT-4
results = se.run_evals(
eval_set="gpqa",
models="gpt-4",
)
# Визуализировать результаты
se.visualize(results)
```
Поддерживаемые оценки
- GPQA: специализированные вопросы для оценки знаний в области физики на уровне аспирантуры
- Математика: вопросы из MATH и GSM8K
- Вычислительные задачи: HumanEval и MBPP
- Игры: покер, шахматы, и др.
- Мониторинг токсичности: генерация и оценка вредоносного контента
- Выполнение многоэтапных задач: ARC, BBH, MMLU
- И многое другое...
Поддерживаемые модели
- OpenAI (GPT-4, GPT-3.5)
- Anthropic (Claude)
- Mistral и Mixtral
- Gemini
- Локальные модели через vLLM, transformers и т.д.
Расширенное использование
```python
# Запустить множество тестов на разных моделях
results = se.run_evals(
eval_sets=["gpqa", "gsm8k", "humaneval"],
models=["gpt-4", "gpt-3.5-turbo", "claude-2"],
max_samples=100, # ограничение количества образцов
cache=True, # кэширование для экономии токенов
)
# Анализировать и визуализировать результаты
se.analyze • Self-reported
IFEval
# simple-evals
simple-evals — это инструмент для оценки и проверки LLM, который можно легко настроить и адаптировать под различные потребности. Он состоит из набора инструментов, которые помогают оценивать модели по широкому спектру задач.
## Ключевые особенности
- Легко оценивайте модели на разнообразных задачах в стиле "вопрос и ответ" с помощью нашего фреймворка для оценки
- Включены оценки для базовых способностей рассуждения, безопасности/выравнивания, и прочего
- Создавайте пользовательские тесты для собственных задач
- Возможность оценки с помощью другой модели в качестве судьи
- Включает аннотаторы для оценки модели и пост-хоки
- Доступ к моделям через локальные API (подобно vLLM) или облачные API (OpenAI, Anthropic, и т.д.)
## Установка
```bash
pip install simple-evals
```
Дополнительные пакеты требуются для использования определенных бэкендов. Например:
```bash
pip install simple-evals[openai] # для использования моделей OpenAI
pip install simple-evals[anthropic] # для использования моделей Anthropic
pip install simple-evals[huggingface] # для запуска моделей Hugging Face локально
```
## Начало работы
Чтобы быстро начать работу, можно воспользоваться CLI-инструментом `simple-evals`:
```bash
$ simple-evals run path/to/questions.jsonl --model gpt-4o
```
Или через Python:
```python
from simple_evals import evaluator, backends, questions
# Создать бэкенд и загрузить задачи
backend = backends.OpenAIBackend(model="gpt-4o")
qs = questions.load_questions("path/to/questions.jsonl")
# Запустить оценку
results = evaluator.evaluate(qs, backend)
# Вывести сводную информацию
evaluator.print_results_summary(results)
```
## Документация
Полная документация доступна на https://simple-evals.readthedocs.io/. • Self-reported
LiveBench
simple-evals
Простой фреймворк для оценки LLM
Использует функцию-оценщик из LLM для оценки генерации, основываясь на заданных инструкциях (возможно, с примерами). Эффективно для широкого спектра задач: от арифметики до создания контента.
## Как работает?
1. Предоставьте задачу, набор инструкций и критерии оценки
2. Одна модель генерирует ответ
3. Другая модель (может быть та же) оценивает соответствие ответа инструкциям и критериям
4. Получите результаты в различных форматах
## Примеры использования
* Сравнение моделей на конкретных задачах
* Итерационное улучшение промптов и методов
* Организация соревнований внутри команды
## Установка
```
pip install simple-evals
```
## Интерфейс командной строки
```bash
# Базовая оценка
simple-evals evaluate --task-file samples/tasks/arithmetic.yaml
# Сравнение разных промптов или моделей
simple-evals evaluate --task-file samples/tasks/arithmetic.yaml --comparison --runs 5
``` • Self-reported
MMLU-Pro
simple-evals
AI: # Сильные и слабые стороны, а также ограничения атрибутов (SWOLA)
## Определение
Метод SWOLA (Strengths, Weaknesses, and Limitations of Attributes) — это метод оценки и анализа, используемый для выявления сильных и слабых сторон определенных атрибутов, а также их ограничений. Данный метод применяется для формирования всестороннего понимания характеристик исследуемого субъекта.
## Методология
SWOLA включает в себя:
1. **Определение атрибутов для оценки**: Выбор ключевых характеристик или свойств, подлежащих анализу.
2. **Анализ сильных сторон**: Идентификация положительных аспектов каждого атрибута, которые обеспечивают преимущества или превосходную производительность.
3. **Анализ слабых сторон**: Выявление недостатков или областей, требующих улучшения для каждого атрибута.
4. **Оценка ограничений**: Определение граничных условий или сценариев, при которых атрибут может демонстрировать сниженную эффективность или неприменимость.
5. **Комплексный анализ**: Синтез информации для получения полного представления о каждом атрибуте с учетом контекста и целей оценки.
## Применение
SWOLA применяется для:
- Оценки моделей машинного обучения и их компонентов
- Анализа характеристик алгоритмов
- Сравнительного анализа различных подходов
- Выявления потенциальных областей для исследования и улучшения
- Принятия информированных решений о разработке или внедрении технологий
## Преимущества
- Обеспечивает структурированную основу для оценки
- Позволяет получить нюансированное понимание атрибутов
- Способствует критическому мышлению и тщательному анализу
- Помогает идентифицировать возможности для оптимизации
## Ограничения
- Требует экспертных знаний в оцениваемой области
- Может быть субъективным без тщательно определенных критериев
- Эффективность зависит от полноты рассматриваемых атрибутов
- Требует контекстуального понимания для интерпретации результатов • Self-reported
PhiBench
simple-evals
Библиотека для совместной работы и сравнения больших языковых моделей. Она облегчает оценку производительности моделей на основе интеграций в ваш код.
Вы можете добавить строки метаданных в верхнюю часть вашего файла с примерами (на yaml), и simple-evals автоматически оценит ответы из каждой языковой модели согласно указанным вами критериям. Результаты можно просматривать в веб-интерфейсе или экспортировать в CSV.
Библиотека поддерживает различные критерии оценки:
- Выбор лучшего ответа из нескольких моделей
- Оценка ответов моделей на соответствие заданным критериям
- Проверка, содержит ли ответ модели запрещенные или обязательные элементы
- Оценка на основе вычислений
Сравнение моделей получается очень простым. Ваши инструкции:
- Пишете свой промпт
- Получаете ответы от нескольких моделей
- Создаете критерии сравнения
- Визуализируете результаты для принятия решений • Self-reported
SimpleQA
simple-evals
AI: Простые методы оценки • Self-reported
Лицензия и метаданные
Лицензия
mit
Дата анонса
12 декабря 2024 г.
Последнее обновление
19 июля 2025 г.
Похожие модели
Все моделиLlama 3.3 70B Instruct
Meta
70.0B
Лучший скор:0.9 (HumanEval)
Релиз:дек. 2024 г.
Цена:$0.88/1M токенов
Llama 3.1 70B Instruct
Meta
70.0B
Лучший скор:0.9 (ARC)
Релиз:июль 2024 г.
Цена:$0.89/1M токенов
Codestral-22B
Mistral AI
22.2B
Лучший скор:0.8 (HumanEval)
Релиз:май 2024 г.
Цена:$0.20/1M токенов
Qwen2.5-Coder 32B Instruct
Alibaba
32.0B
Лучший скор:0.9 (HumanEval)
Релиз:сент. 2024 г.
Цена:$0.09/1M токенов
Qwen2.5 72B Instruct
Alibaba
72.7B
Лучший скор:0.9 (HumanEval)
Релиз:сент. 2024 г.
Цена:$1.20/1M токенов
Mistral NeMo Instruct
Mistral AI
12.0B
Лучший скор:0.7 (MMLU)
Релиз:июль 2024 г.
Цена:$0.15/1M токенов
Phi-3.5-mini-instruct
Microsoft
3.8B
Лучший скор:0.8 (ARC)
Релиз:авг. 2024 г.
Цена:$0.10/1M токенов
Qwen3 32B
Alibaba
32.8B
Релиз:апр. 2025 г.
Цена:$0.40/1M токенов
Рекомендации основаны на схожести характеристик: организация-разработчик, мультимодальность, размер параметров и производительность в бенчмарках. Выберите модель для сравнения или перейдите к полному каталогу для просмотра всех доступных моделей ИИ.