Рейтинг нейросетей
Сравнивай модели, бенчмарки и цены. Быстро находи лучшее под твои задачи.
Мы фокусируемся на том, чтобы предоставить вам наиболее точные и актуальные данные от лучших разработчиков ИИ
Топ языковых моделей
# | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
71 | Jamba 1.5 Large | 256K | 22 авг. 2024 г. | 5 мар. 2024 г. | 398.0B | Нет | 2.00 | 8.00 | 81.2% | 36.9% | 93.0% | - | - | - | - | |
72 | Jamba 1.5 Mini | 256K | 22 авг. 2024 г. | 5 мар. 2024 г. | 52.0B | Нет | 0.20 | 0.40 | 69.7% | 32.3% | 85.7% | - | - | - | - | |
73 | Grok-2 | 128K | 13 авг. 2024 г. | - | - | Да | 2.00 | 10.00 | 87.5% | 56.0% | - | - | 88.4% | - | - | |
74 | GPT-4o | 128K | 6 авг. 2024 г. | - | - | Да | 2.50 | 10.00 | 85.7% | 70.1% | - | 33.2% | - | 45.5% | 66.5% | |
75 | Mistral Large 2 | 128K | 24 июл. 2024 г. | - | 123.0B | Нет | 2.00 | 6.00 | 84.0% | - | - | - | 92.0% | - | - | |
76 | Llama 3.1 405B Instruct | 128K | 23 июл. 2024 г. | - | 405.0B | Нет | 3.50 | 3.50 | 87.3% | 50.7% | 96.9% | - | 89.0% | - | - | |
77 | Llama 3.1 70B Instruct | 128K | 23 июл. 2024 г. | - | 70.0B | Нет | 0.89 | 0.89 | 83.6% | 41.7% | 94.8% | - | 80.5% | - | - | |
78 | Llama 3.1 8B Instruct | 131K | 23 июл. 2024 г. | 31 дек. 2023 г. | 8.0B | Нет | 0.20 | 0.20 | 69.4% | 30.4% | 83.4% | - | 72.6% | - | - | |
79 | Mistral NeMo Instruct | 128K | 18 июл. 2024 г. | - | 12.0B | Нет | 0.15 | 0.15 | 68.0% | - | - | - | - | - | - | |
80 | GPT-4o mini | 128K | 18 июл. 2024 г. | 1 окт. 2023 г. | - | Да | 0.15 | 0.60 | 82.0% | 40.2% | - | 8.7% | 87.2% | - | - |
Размер контекстного окна
У каждой модели свой способ разделения текста на токены. Примерно токен = 3-4 символа, но зависит от языка и модели.
Важно: OpenAI считает по-одному, Claude по-другому, поэтому точные цифры всегда отличаются.
Чтобы понять масштаб — миллион токенов это:
~150 слов в минуту
~500 слов на страницу
~60 символов на строку
~150 слов в минуту
~500 слов на страницу
~60 символов на строку
На основе среднего количества символов в строке. См. Wikipedia.
Топ модели в вызове инструментов (Tool Calling)
Примеры Tool Calling в действии
→ send_email(to="ivan@company.com", subject="Отчёт", attachment="report.pdf")
→ get_weather(city="Moscow", lang="ru")
→ book_flight(date="2025-01-07", destination="SPB")
→ send_email(to="ivan@company.com", subject="Отчёт", attachment="report.pdf")
→ get_weather(city="Moscow", lang="ru")
→ book_flight(date="2025-01-07", destination="SPB")
Почему это важно для разработчиков
Представь: ты просишь модель проанализировать код, потом запустить тесты, затем зафиксировать изменения в git. Если модель в одном из шагов накосячит — всё развалится. Чем выше процент, тем меньше шансов, что твой автоматизированный процесс сломается на ровном месте.
Скорость генерации токенов
Отладка: 15 моделей, макс скорость: 1000 т/с
Демонстрация скорости генерации токенов
Значения сбрасываются каждые 15 секунд для демонстрации разных скоростей
Рейтинги LLM
Лучшая модель - Код
Лучшая мультимодальная модель
Лучшая модель - Знания
Самый длинный контекст
Самый дешевый API
Самый быстрый API
Лучшая модель - Код
Лучшая мультимодальная модель
Лучшая модель - Знания
Самый длинный контекст
Самый дешевый API
Самый быстрый API
Бенчмарки и тесты
MMLU
ЗнанияТест на понимание языка и широкие знания в 57 предметах
HumanEval
ПрограммированиеРешение задач по программированию на Python
GPQA
НаукаВопросы уровня PhD по физике, химии и биологии
ARC
РассужденияЛогические задачи для школьников на рассуждения
SWE-Bench
ИнженерияРеальные задачи разработки программного обеспечения
MMMU
МультимодальностьМультимодальные задачи на понимание изображений и текста
GSM8K
МатематикаМатематические задачи уровня начальной школы
HellaSwag
ПониманиеТест на здравый смысл и понимание контекста
Arena Hard
ДиалогиСложные задачи из пользовательских запросов
ComplexFuncBench
Tool CallingСложные сценарии вызова функций с многоступенчатыми задачами
Tau2
Tool CallingКомплексные сценарии вызова инструментов с множественными параметрами
ToolBench
Tool CallingПрактические задачи использования API в реальных сценариях
MMLU
ЗнанияТест на понимание языка и широкие знания в 57 предметах
HumanEval
ПрограммированиеРешение задач по программированию на Python
GPQA
НаукаВопросы уровня PhD по физике, химии и биологии
ARC
РассужденияЛогические задачи для школьников на рассуждения
SWE-Bench
ИнженерияРеальные задачи разработки программного обеспечения
MMMU
МультимодальностьМультимодальные задачи на понимание изображений и текста
GSM8K
МатематикаМатематические задачи уровня начальной школы
HellaSwag
ПониманиеТест на здравый смысл и понимание контекста
Arena Hard
ДиалогиСложные задачи из пользовательских запросов
ComplexFuncBench
Tool CallingСложные сценарии вызова функций с многоступенчатыми задачами
Tau2
Tool CallingКомплексные сценарии вызова инструментов с множественными параметрами
ToolBench
Tool CallingПрактические задачи использования API в реальных сценариях