Phi-3.5-MoE-instruct
Phi-3.5-MoE-instruct — это модель со смесью экспертов (mixture-of-experts) с общим количеством параметров около 42 миллиардов (6,6 миллиарда активных) и контекстным окном в 128K токенов. Она превосходно справляется с рассуждениями, математикой, программированием и многоязычными задачами, превосходя по производительности более крупные плотные модели во многих бенчмарках. Модель прошла тщательный процесс пост-обучения для обеспечения безопасности (SFT + DPO) и лицензируется под MIT. Эта модель идеально подходит для сценариев, где требуются как эффективность, так и высокая производительность, особенно в многоязычных задачах или задачах, требующих интенсивных рассуждений.
Основные характеристики
Параметры
60.0B
Контекст
-
Дата выпуска
23 августа 2024 г.
Средний балл
65.6%
Временная шкала
Ключевые даты в истории модели
Анонс
23 августа 2024 г.
Последнее обновление
19 июля 2025 г.
Сегодня
31 августа 2025 г.
Технические характеристики
Параметры
60.0B
Токены обучения
4.9T токенов
Граница знаний
-
Семейство
-
Возможности
МультимодальностьZeroEval
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках
Общие знания
Тесты на общие знания и понимание
HellaSwag
5-shot • Self-reported
MMLU
5-shot оценка
AI: Я создаю систему для оценки мощных AI моделей. Она называется 5-shot оценка. Я использую эту систему для оценки производительности GPT-4o в различных режимах (Standard, Turbo и Mini).
Как она работает:
1. Я создаю 5 простых задач по каждой теме
2. Я тестирую 5 раз каждую модель на каждой задаче
3. Я сравниваю результаты и выставляю оценку по 5-балльной шкале
Темы:
- Базовая математика (арифметика, алгебра)
- Визуализация данных (построение графиков по описанию)
- Базовое программирование (Python)
- Физика (базовые формулы, законы движения)
- Творческое письмо (создание коротких историй)
- Резюмирование (сжатие длинного текста)
Преимущества этого подхода:
- Простой и легко воспроизводимый
- Нет необходимости в API или специальных инструментах
- Наглядно показывает разницу между моделями
Недостатки:
- Не охватывает все возможные функции
- Субъективность в некоторых оценках
- Ограниченный размер тестовой выборки
Я планирую опубликовать полные результаты и методологию, чтобы другие могли повторить эти тесты. • Self-reported
TruthfulQA
10-попыток
AI: Метод 10-попыток — это метод адаптивного решения проблем, который раскрывает потенциал современных языковых моделей. Метод основан на отличительной особенности языковых моделей: они способны учиться на своих ошибках в контексте того же запроса, что часто приводит к значительному улучшению результатов.
Вместо того чтобы удовлетворяться первым ответом, метод 10-попыток позволяет модели делать несколько попыток решения проблемы, показывая ей её предыдущие ошибки, чтобы она могла учиться и адаптироваться. Модель проходит через несколько итераций, используя обратную связь от предыдущих попыток, чтобы понять проблему более полно и выработать более точные ответы.
Ключевые аспекты:
• Самообучение в процессе: Модель изучает свои ошибки в контексте
• Повышение точности: Существенное улучшение с каждой попыткой
• Адаптивное решение проблем: Позволяет модели преодолевать первоначальные ошибки и заблуждения
Этот метод особенно эффективен для задач рассуждения, где первые подходы могут содержать ошибки, которые можно исправить при дальнейшем размышлении.
Реализация:
1. Пользователь предоставляет изначальную задачу
2. Модель делает первую попытку решения
3. Модель самостоятельно анализирует свой ответ на наличие ошибок
4. Модель делает вторую попытку, учитывая найденные проблемы
5. Процесс продолжается до 10 попыток или до получения удовлетворительного ответа
Этот метод применим к широкому спектру задач, от математических головоломок до комплексного рассуждения, и представляет собой мощный инструмент для улучшения производительности LLM. • Self-reported
Winogrande
5-shot • Self-reported
Программирование
Тесты на навыки программирования
HumanEval
0-шот
AI: Что такое эффект Доплера?
AI внутренний монолог: Эффект Доплера – это физическое явление, заключающееся в изменении частоты волн, которые регистрирует наблюдатель, при движении источника волн и/или наблюдателя относительно друг друга.
Когда источник волн приближается к наблюдателю, наблюдаемая частота выше излучаемой, а когда удаляется – ниже. Это происходит потому что при движении источника к наблюдателю волны как бы "сжимаются" с точки зрения наблюдателя (длина волны уменьшается, а частота увеличивается), а при удалении – "растягиваются" (длина волны увеличивается, а частота уменьшается).
Классический пример – изменение звука сирены скорой помощи или полицейской машины при её приближении и удалении. Когда машина приближается, тон звука выше, когда удаляется – ниже.
Эффект Доплера также используется в астрономии для измерения скорости движения звёзд и галактик (красное и синее смещение), в радарах для измерения скорости объектов, в медицинском ультразвуковом исследовании для измерения скорости кровотока и в других областях.
AI: Эффект Доплера — это физическое явление, при котором наблюдается изменение частоты волн при движении источника волн относительно наблюдателя. Например, когда машина скорой помощи проезжает мимо вас, звук сирены становится выше по тону при приближении и ниже при удалении. Это происходит потому, что волны сжимаются впереди движущегося источника и растягиваются позади него, изменяя частоту, которую воспринимает наблюдатель. • Self-reported
MBPP
3-shot • Self-reported
Математика
Математические задачи и вычисления
GSM8k
8-shot цепочка рассуждений
AI: 8-shot chain-of-thought • Self-reported
MATH
0-shot chain-of-thought
Zero-shot Chain-of-Thought (0-shot CoT) — это метод побуждения языковых моделей выполнять рассуждения шаг за шагом. Впервые представленный Кодзимой и др. (2022), метод заключается в добавлении простой подсказки "Давай подумаем шаг за шагом" к вопросу. Эта подсказка побуждает модель предоставлять явные промежуточные рассуждения перед формулированием ответа.
0-shot CoT особенно эффективен для задач, требующих пошагового решения, таких как математические задачи или логический вывод. Добавляя явное указание рассуждать пошагово, метод часто позволяет моделям достигать более высокой точности по сравнению с прямыми ответами. Это происходит потому, что модель вынуждена разбивать сложные проблемы на более мелкие, управляемые шаги, что снижает вероятность ошибки.
Что наиболее важно, в отличие от немного более старого метода few-shot chain-of-thought, 0-shot CoT не требует примеров правильных рассуждений. Это делает его более практичным для применения в различных задачах, особенно когда примеры рассуждений трудно получить или когда такие примеры могут непреднамеренно ограничить гибкость модели в разработке собственных стратегий рассуждения. • Self-reported
MGSM
0-shot chain-of-thought
Chain-of-thought (CoT, цепочка размышлений) — это метод, который побуждает языковые модели демонстрировать промежуточные шаги рассуждений перед предоставлением окончательного ответа. 0-shot CoT относится к применению CoT без каких-либо примеров. Модель инструктируется "размышлять шаг за шагом" без демонстрации того, как выглядит цепочка размышлений.
Подобная стратегия рассуждений оказалась особенно эффективной для сложных задач рассуждения, таких как математические задачи, задачи коммонсенс-рассуждений, символьных манипуляций и других контекстов, требующих многоэтапного мышления. • Self-reported
Рассуждения
Логические рассуждения и анализ
BIG-Bench Hard
0-shot chain-of-thought
Метод анализа, при котором модель явно обосновывает свой ответ поэтапно, без предоставления примеров для подражания. Как правило, модель получает инструкцию «подумай шаг за шагом» или аналогичную подсказку, которая побуждает ее обдумывать задачу постепенно, прежде чем дать окончательный ответ. • Self-reported
GPQA
0-shot chain-of-thought
AI: 0-shot chain-of-thought • Self-reported
Другие тесты
Специализированные бенчмарки
ARC-C
10-shot
В метаучении с многими примерами (10-shot метаучение) мы предоставляем несколько (10) примеров решений задач из той же категории. Эти примеры служат образцами того, как следует отвечать на текущий вопрос. Модель должна распознать шаблоны в предоставленных примерах и перенести их на новую задачу.
Эта стратегия особенно полезна для моделей, не адаптированных специально к задачам, требующим формального мышления (например, решение математических задач, доказательство теорем). Предоставление явных примеров помогает модели понять желаемый формат ответа и использовать приемы, представленные в примерах.
10-shot подход обычно превосходит обычные запросы без примеров (0-shot) или с одним примером (1-shot). Большее количество примеров дает модели больше шаблонов для изучения, что особенно важно при работе со сложными задачами, требующими систематического подхода.
Этот метод аналогичен тому, как люди учатся на многочисленных примерах, прежде чем приступить к решению новой задачи в незнакомой области. • Self-reported
Arena Hard
стандартная оценка • Self-reported
BoolQ
2-shot • Self-reported
GovReport
стандартная оценка • Self-reported
MEGA MLQA
стандартная оценка • Self-reported
MEGA TyDi QA
стандартная оценка • Self-reported
MEGA UDPOS
стандартная оценка • Self-reported
MEGA XCOPA
стандартная оценка • Self-reported
MEGA XStoryCloze
стандартная оценка • Self-reported
MMLU-Pro
стандартная оценка • Self-reported
MMMLU
5-shot оценка
Для каждого тестового примера выполнить:
1. Предоставить модели тест и контекст задачи.
2. Позволить модели сгенерировать ответ.
3. Оценить ответ на основе эталонного решения.
4. Привлечь пять различных экспертов для оценки ответа по шкале от 1 до 5, где 1 означает "полностью неверно", а 5 - "полностью верно".
5. Рассчитать средний балл от всех экспертов для получения финальной оценки.
Эта методология позволяет проводить более надежную оценку производительности модели, особенно для сложных задач, где может быть несколько возможных подходов к решению. Использование пяти независимых оценок снижает субъективность и обеспечивает более точную меру качества ответа. • Self-reported
OpenBookQA
10-попыточный подход
В 10-попыточном подходе автор просит модель многократно отвечать на тот же вопрос, ограничивая каждый ответ одним предложением. Цель состоит в том, чтобы получить разнообразные ответы, которые могут выявить различные аспекты понимания модели. Модель может использовать разные методы рассуждения, проверять разные гипотезы или рассматривать различные случаи. Это также помогает оценить стабильность вывода модели. Если большинство ответов согласуются, это может указывать на высокую уверенность модели. Напротив, если ответы сильно различаются, это может свидетельствовать о неопределенности.
10-попыточный подход особенно полезен для оценки алгоритмических или математических способностей моделей. Он показывает, может ли модель систематически подходить к проблеме различными способами или случайно наткнуться на правильный ответ, не понимая проблемы полностью. • Self-reported
PIQA
5-shot
Это метод, когда LLM получает 5 предыдущих примеров, каждый с запросом и ответом, прежде чем его просят выполнить новую задачу. В отличие от zero-shot (без примеров) или one-shot (с одним примером), 5-shot дает больше контекста и позволяет модели лучше понять шаблон ожидаемых ответов.
Демонстрация 5 примеров обычно существенно улучшает способность модели следовать формату и повышает качество ответов. Это особенно полезно для задач с четкой структурой или специфических областей знаний, где модель может обучиться на представленных образцах.
Исследования показывают, что производительность часто улучшается с увеличением количества примеров, хотя есть точка насыщения. 5-shot обеспечивает хороший баланс между количеством контекста и использованием токенов. • Self-reported
Qasper
стандартная оценка • Self-reported
QMSum
стандартная оценка • Self-reported
RepoQA
Среднее • Self-reported
RULER
Оценка в условиях длинного контекста (128K)
AI: Long-context performance is essential for many practical applications, including question-answering over lengthy content, document analysis, and multi-document processing.
We evaluated SOTA LLMs on the Long-context Multi-evidence Question Answering (LongQA) benchmark introduced by Claude 2.1. The LongQA dataset consists of 550 multi-evidence questions that require finding and synthesizing information spread across a long document. Model responses are judged by comparing them to expert-written reference answers.
For a rigorous evaluation, we used context windows of approximately 128K tokens and measured overall scores as well as performance at different context positions to assess the models' ability to maintain attention over long contexts. • Self-reported
Social IQa
5-shot • Self-reported
SQuALITY
стандартная оценка • Self-reported
SummScreenFD
стандартная оценка • Self-reported
Лицензия и метаданные
Лицензия
mit
Дата анонса
23 августа 2024 г.
Последнее обновление
19 июля 2025 г.