Рейтинг нейросетей

Сравнивай модели, бенчмарки и цены. Быстро находи лучшее под твои задачи.

Обновлено: 31 августа

Мы фокусируемся на том, чтобы предоставить вам наиболее точные и актуальные данные от лучших разработчиков ИИ

OpenAI logo
OpenAI
Anthropic logo
Anthropic
Google logo
Google
Meta logo
Meta
Grok logo
Grok
DeepSeek logo
DeepSeek

Топ языковых моделей

Какие модели показывают лучшие результаты в тестах и сколько стоит их использование
Показано 1-10 из 94
#
1
OpenAI logo
OpenAI
GPT-5400K
7 авг. 2025 г.
30 сент. 2024 г.
-Да
1.25
10.00
92.5%85.7%-74.9%93.4%62.6%-
2
OpenAI logo
OpenAI
GPT-5 mini400K
7 авг. 2025 г.
30 мая 2024 г.
-Да
0.25
2.00
-82.3%-----
3
OpenAI logo
OpenAI
GPT-5 nano400K
7 авг. 2025 г.
30 мая 2024 г.
-Да
0.05
0.40
-71.2%-----
4
Anthropic logo
Anthropic
Claude Opus 4.1200K
5 авг. 2025 г.
-
-Да
15.00
75.00
-80.9%-74.5%-82.4%-
5
OpenAI logo
OpenAI
GPT OSS 120B131K
5 авг. 2025 г.
-
120.0BДа
0.15
0.60
90.0%80.1%---67.8%-
6
OpenAI logo
OpenAI
GPT OSS 20B131K
5 авг. 2025 г.
-
20.0BДа
0.10
0.50
85.3%71.5%---54.8%-
7
Mistral AI logo
Mistral AI
Devstral Small 1.1128K
11 июл. 2025 г.
-
24.0BНет
0.10
0.30
---53.6%---
8
Mistral AI logo
Mistral AI
Devstral Medium128K
10 июл. 2025 г.
-
-Нет
0.40
2.00
---61.6%---
9
xAI logo
xAI
Grok-4256K
9 июл. 2025 г.
31 дек. 2024 г.
-Да
3.00
15.00
-87.5%-----
10
Google logo
Google
Gemma 3n E4B Instructed32K
26 июн. 2025 г.
1 июн. 2024 г.
8.0BДа
20.00
40.00
64.9%23.7%--75.0%--
1 из 10

Размер контекстного окна

Сколько текста модель может проанализировать за раз. Больше контекста = можешь загрузить целую книгу, но счёт за API тоже растёт пропорционально.
Meta logo
Meta
Google logo
Google
OpenAI logo
OpenAI

У каждой модели свой способ разделения текста на токены. Примерно токен = 3-4 символа, но зависит от языка и модели.
Важно: OpenAI считает по-одному, Claude по-другому, поэтому точные цифры всегда отличаются.

Чтобы понять масштаб — миллион токенов это:

30 часов
подкаста
~150 слов в минуту
1000 страниц
книги
~500 слов на страницу
60,000 строк
кода
~60 символов на строку
← Листай горизонтально для сравнения объёмов →

На основе среднего количества символов в строке. См. Wikipedia.

Топ модели в вызове инструментов (Tool Calling)

Рейтинг построен на основе бенчмарков Tau2 и ComplexFuncBench. Эти тесты проверяют, как точно модели вызывают нужные функции с правильными параметрами в разных сценариях.
1
Anthropic logo
Claude Opus 4.1
Anthropic
82.4%
2
OpenAI logo
GPT OSS 120B
OpenAI
67.8%
3
OpenAI logo
GPT-4.1
OpenAI
65.5%
4
OpenAI logo
o3
OpenAI
64.8%
5
OpenAI logo
GPT-4.5
OpenAI
63.0%
6
OpenAI logo
GPT-5
OpenAI
62.6%
7
Anthropic logo
Claude Sonnet 4
Anthropic
60.0%
8
Anthropic logo
Claude Opus 4
Anthropic
59.6%
9
Anthropic logo
Claude 3.7 Sonnet
Anthropic
58.4%
10
Moonshot AI logo
Kimi K2 Instruct
Moonshot AI
56.5%

Примеры Tool Calling в действии

Email отправка
"Отправь письмо Ивану с отчётом"
→ send_email(to="ivan@company.com", subject="Отчёт", attachment="report.pdf")
Проверка погоды
"Какая погода в Москве?"
→ get_weather(city="Moscow", lang="ru")
Бронирование
"Забронируй билет на завтра"
→ book_flight(date="2025-01-07", destination="SPB")
← Листай горизонтально для просмотра примеров →

Почему это важно для разработчиков

Представь: ты просишь модель проанализировать код, потом запустить тесты, затем зафиксировать изменения в git. Если модель в одном из шагов накосячит — всё развалится. Чем выше процент, тем меньше шансов, что твой автоматизированный процесс сломается на ровном месте.

Скорость генерации токенов

Реальные данные производительности API: сколько токенов в секунду выдают модели и как быстро начинают отвечать.
Сверхбыстрые (500+ т/с)
Очень быстрые (200+ т/с)
Быстрые (100+ т/с)
Средние (<100 т/с)
Данные основаны на официальных метриках API провайдеров
Отладка: 15 моделей, макс скорость: 1000 т/с

Демонстрация скорости генерации токенов

Интерактивная демка показывает разницу в скорости работы моделей. Меняй значения в полях и смотри, как это влияет на время ответа.
т/с
т/с
т/с
← Листай горизонтально для сравнения скоростей →

Значения сбрасываются каждые 15 секунд для демонстрации разных скоростей

Рейтинги LLM

Лучшие модели и API провайдеры в каждой категории

Лучшая модель - Код

Бенчмарк Aider Polyglot
1
Anthropic logo
Claude 3.5 Sonnet
Anthropic
0.0%
2
OpenAI logo
GPT-5
OpenAI
0.0%
3
Moonshot AI logo
Kimi K2 Instruct
Moonshot AI
0.0%

Лучшая мультимодальная модель

Бенчмарк MMMU
1
OpenAI logo
GPT-5
OpenAI
0.0%
2
OpenAI logo
GPT 4.5
OpenAI
0.0%
3
Anthropic logo
Claude 3.5 Sonnet
Anthropic
0.0%

Лучшая модель - Знания

Бенчмарк GPQA
1
xAI logo
Grok-4
xAI
0.0%
2
Google logo
Gemini 2.5 Pro Preview 06...
Google
0.0%
3
OpenAI logo
GPT-5
OpenAI
0.0%

Самый длинный контекст

Максимум входных токенов
1
Meta logo
Llama 4 Scout
Meta
0.0%
2
Google logo
Gemini 1.5 Pro
Google
0.0%
3
Google logo
Gemini 2.5 Pro
Google
0.0%

Самый дешевый API

Стоимость входных токенов
1
Meta logo
Llama 3.2 3B Instruct
Meta
0.0%
2
Google logo
Gemma 3 4B
Google
0.0%
3
Amazon logo
Nova Micro
Amazon
0.0%

Самый быстрый API

Пропускная способность
1
Alibaba logo
Qwen3 32B
Alibaba
0.0%
2
OpenAI logo
GPT 4 Turbo
OpenAI
0.0%
3
OpenAI logo
GPT 4
OpenAI
0.0%
← Листай горизонтально для просмотра всех категорий →

Бенчмарки и тесты

Как понять, какая модель лучше справляется с математикой, программированием или пониманием текста? Мы собрали 300+ разных тестов. Вот некоторые из ключевых бенчмарков, которые мы используем:

MMLU

Знания

Тест на понимание языка и широкие знания в 57 предметах

HumanEval

Программирование

Решение задач по программированию на Python

GPQA

Наука

Вопросы уровня PhD по физике, химии и биологии

ARC

Рассуждения

Логические задачи для школьников на рассуждения

SWE-Bench

Инженерия

Реальные задачи разработки программного обеспечения

MMMU

Мультимодальность

Мультимодальные задачи на понимание изображений и текста

GSM8K

Математика

Математические задачи уровня начальной школы

HellaSwag

Понимание

Тест на здравый смысл и понимание контекста

Arena Hard

Диалоги

Сложные задачи из пользовательских запросов

ComplexFuncBench

Tool Calling

Сложные сценарии вызова функций с многоступенчатыми задачами

Tau2

Tool Calling

Комплексные сценарии вызова инструментов с множественными параметрами

ToolBench

Tool Calling

Практические задачи использования API в реальных сценариях

← Листай горизонтально для просмотра всех бенчмарков →
Рейтинг ИИ | Сравнение языковых моделей и нейросетей