Рейтинг нейросетей

Сравнивай модели, бенчмарки и цены. Быстро находи лучшее под твои задачи.

Обновлено: 4 сентября

Мы фокусируемся на том, чтобы предоставить вам наиболее точные и актуальные данные от лучших разработчиков ИИ

OpenAI logo
OpenAI
Anthropic logo
Anthropic
Google logo
Google
Meta logo
Meta
Grok logo
Grok
DeepSeek logo
DeepSeek

Топ языковых моделей

Какие модели показывают лучшие результаты в тестах и сколько стоит их использование
Показано 41-50 из 94
#
41
DeepSeek logo
DeepSeek
DeepSeek R1 Distill Llama 70B128K
20 янв. 2025 г.
-
70.6BНет
0.10
0.40
-65.2%-----
42
DeepSeek logo
DeepSeek
DeepSeek R1 Distill Qwen 32B128K
20 янв. 2025 г.
-
32.8BНет
0.12
0.18
-62.1%-----
43
DeepSeek logo
DeepSeek
DeepSeek-R1131K
20 янв. 2025 г.
-
671.0BНет
7.00
7.00
90.8%71.5%-49.2%---
44
Moonshot AI logo
Moonshot AI
Kimi K2 Instruct128K
1 янв. 2025 г.
-
1000.0BНет
0.57
2.29
89.5%75.1%--93.3%56.5%-
45
DeepSeek logo
DeepSeek
DeepSeek-V3131K
25 дек. 2024 г.
-
671.0BНет
0.27
1.10
88.5%59.1%-42.0%---
46
OpenAI logo
OpenAI
o1200K
17 дек. 2024 г.
-
-Нет
15.00
60.00
91.8%78.0%-41.0%88.1%50.0%-
47
DeepSeek logo
DeepSeek
DeepSeek VL2129K
13 дек. 2024 г.
-
27.0BДа
9.50
4800.00
-------
48
Microsoft logo
Microsoft
Phi 416K
12 дек. 2024 г.
1 июн. 2024 г.
14.7BНет
0.07
0.14
84.8%56.1%--82.6%--
49
Meta logo
Meta
Llama 3.3 70B Instruct128K
6 дек. 2024 г.
-
70.0BНет
0.88
0.88
86.0%50.5%--88.4%--
50
Google logo
Google
Gemini 2.0 Flash1049K
1 дек. 2024 г.
1 авг. 2024 г.
-Да
0.10
0.40
-62.1%-----
5 из 10

Размер контекстного окна

Сколько текста модель может проанализировать за раз. Больше контекста = можешь загрузить целую книгу, но счёт за API тоже растёт пропорционально.
Meta logo
Meta
Google logo
Google
OpenAI logo
OpenAI

У каждой модели свой способ разделения текста на токены. Примерно токен = 3-4 символа, но зависит от языка и модели.
Важно: OpenAI считает по-одному, Claude по-другому, поэтому точные цифры всегда отличаются.

Чтобы понять масштаб — миллион токенов это:

30 часов
подкаста
~150 слов в минуту
1000 страниц
книги
~500 слов на страницу
60,000 строк
кода
~60 символов на строку
← Листай горизонтально для сравнения объёмов →

На основе среднего количества символов в строке. См. Wikipedia.

Топ модели в вызове инструментов (Tool Calling)

Рейтинг построен на основе бенчмарков Tau2 и ComplexFuncBench. Эти тесты проверяют, как точно модели вызывают нужные функции с правильными параметрами в разных сценариях.
1
Anthropic logo
Claude Opus 4.1
Anthropic
82.4%
2
OpenAI logo
GPT OSS 120B
OpenAI
67.8%
3
OpenAI logo
GPT-4.1
OpenAI
65.5%
4
OpenAI logo
o3
OpenAI
64.8%
5
OpenAI logo
GPT-4.5
OpenAI
63.0%
6
OpenAI logo
GPT-5
OpenAI
62.6%
7
Anthropic logo
Claude Sonnet 4
Anthropic
60.0%
8
Anthropic logo
Claude Opus 4
Anthropic
59.6%
9
Anthropic logo
Claude 3.7 Sonnet
Anthropic
58.4%
10
Moonshot AI logo
Kimi K2 Instruct
Moonshot AI
56.5%

Примеры Tool Calling в действии

Email отправка
"Отправь письмо Ивану с отчётом"
→ send_email(to="ivan@company.com", subject="Отчёт", attachment="report.pdf")
Проверка погоды
"Какая погода в Москве?"
→ get_weather(city="Moscow", lang="ru")
Бронирование
"Забронируй билет на завтра"
→ book_flight(date="2025-01-07", destination="SPB")
← Листай горизонтально для просмотра примеров →

Почему это важно для разработчиков

Представь: ты просишь модель проанализировать код, потом запустить тесты, затем зафиксировать изменения в git. Если модель в одном из шагов накосячит — всё развалится. Чем выше процент, тем меньше шансов, что твой автоматизированный процесс сломается на ровном месте.

Скорость генерации токенов

Реальные данные производительности API: сколько токенов в секунду выдают модели и как быстро начинают отвечать.
Сверхбыстрые (500+ т/с)
Очень быстрые (200+ т/с)
Быстрые (100+ т/с)
Средние (<100 т/с)
Данные основаны на официальных метриках API провайдеров
Отладка: 15 моделей, макс скорость: 1000 т/с

Демонстрация скорости генерации токенов

Интерактивная демка показывает разницу в скорости работы моделей. Меняй значения в полях и смотри, как это влияет на время ответа.
т/с
т/с
т/с
← Листай горизонтально для сравнения скоростей →

Значения сбрасываются каждые 15 секунд для демонстрации разных скоростей

Рейтинги LLM

Лучшие модели и API провайдеры в каждой категории

Лучшая модель - Код

Бенчмарк Aider Polyglot
1
Anthropic logo
Claude 3.5 Sonnet
Anthropic
0.0%
2
OpenAI logo
GPT-5
OpenAI
0.0%
3
Moonshot AI logo
Kimi K2 Instruct
Moonshot AI
0.0%

Лучшая мультимодальная модель

Бенчмарк MMMU
1
OpenAI logo
GPT-5
OpenAI
0.0%
2
OpenAI logo
GPT 4.5
OpenAI
0.0%
3
Anthropic logo
Claude 3.5 Sonnet
Anthropic
0.0%

Лучшая модель - Знания

Бенчмарк GPQA
1
xAI logo
Grok-4
xAI
0.0%
2
Google logo
Gemini 2.5 Pro Preview 06...
Google
0.0%
3
OpenAI logo
GPT-5
OpenAI
0.0%

Самый длинный контекст

Максимум входных токенов
1
Meta logo
Llama 4 Scout
Meta
0.0%
2
Google logo
Gemini 1.5 Pro
Google
0.0%
3
Google logo
Gemini 2.5 Pro
Google
0.0%

Самый дешевый API

Стоимость входных токенов
1
Meta logo
Llama 3.2 3B Instruct
Meta
0.0%
2
Google logo
Gemma 3 4B
Google
0.0%
3
Amazon logo
Nova Micro
Amazon
0.0%

Самый быстрый API

Пропускная способность
1
Alibaba logo
Qwen3 32B
Alibaba
0.0%
2
OpenAI logo
GPT 4 Turbo
OpenAI
0.0%
3
OpenAI logo
GPT 4
OpenAI
0.0%
← Листай горизонтально для просмотра всех категорий →

Бенчмарки и тесты

Как понять, какая модель лучше справляется с математикой, программированием или пониманием текста? Мы собрали 300+ разных тестов. Вот некоторые из ключевых бенчмарков, которые мы используем:

MMLU

Знания

Тест на понимание языка и широкие знания в 57 предметах

HumanEval

Программирование

Решение задач по программированию на Python

GPQA

Наука

Вопросы уровня PhD по физике, химии и биологии

ARC

Рассуждения

Логические задачи для школьников на рассуждения

SWE-Bench

Инженерия

Реальные задачи разработки программного обеспечения

MMMU

Мультимодальность

Мультимодальные задачи на понимание изображений и текста

GSM8K

Математика

Математические задачи уровня начальной школы

HellaSwag

Понимание

Тест на здравый смысл и понимание контекста

Arena Hard

Диалоги

Сложные задачи из пользовательских запросов

ComplexFuncBench

Tool Calling

Сложные сценарии вызова функций с многоступенчатыми задачами

Tau2

Tool Calling

Комплексные сценарии вызова инструментов с множественными параметрами

ToolBench

Tool Calling

Практические задачи использования API в реальных сценариях

← Листай горизонтально для просмотра всех бенчмарков →
Рейтинг ИИ | Сравнение языковых моделей и нейросетей - Страница 5