Рейтинг нейросетей
Сравнивай модели, бенчмарки и цены. Быстро находи лучшее под твои задачи.
Мы фокусируемся на том, чтобы предоставить вам наиболее точные и актуальные данные от лучших разработчиков ИИ
Топ языковых моделей
| # | ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 61 | IBM | Granite 3.3 8B Instruct | - | 16 апр. 2025 г. | 1 апр. 2024 г. | 8.0B | Да | - | - | 65.5% | - | - | - | 89.7% | - | - |
| 62 | o4-mini | 200K | 16 апр. 2025 г. | 31 мая 2024 г. | - | Да | 1.10 | 4.40 | - | 81.4% | - | 68.1% | - | 49.2% | - | |
| 63 | IBM | Granite 3.3 8B Base | - | 16 апр. 2025 г. | 1 апр. 2024 г. | 8.2B | Да | - | - | 63.9% | - | 50.8% | - | 89.7% | - | - |
| 64 | o3 | 200K | 16 апр. 2025 г. | 31 мая 2024 г. | - | Да | 2.00 | 8.00 | - | 83.3% | - | 69.1% | - | 64.8% | - | |
| 65 | GPT-4.1 | 1048K | 14 апр. 2025 г. | 1 июн. 2024 г. | - | Да | 2.00 | 8.00 | 90.2% | 66.3% | - | 54.6% | - | 49.4% | 65.5% | |
| 66 | GPT-4.1 mini | 1048K | 14 апр. 2025 г. | 31 мая 2024 г. | - | Да | 0.40 | 1.60 | 87.5% | 65.0% | - | 23.6% | - | 36.0% | 49.3% | |
| 67 | GPT-4.1 nano | 1048K | 14 апр. 2025 г. | 31 мая 2024 г. | - | Да | 0.10 | 0.40 | 80.1% | 50.3% | - | - | - | 14.0% | 5.7% | |
| 68 | Llama 3.1 Nemotron Ultra 253B v1 | - | 7 апр. 2025 г. | 1 дек. 2023 г. | 253.0B | Нет | - | - | - | 76.0% | - | - | - | - | - | |
| 69 | Llama 4 Maverick | 1000K | 5 апр. 2025 г. | - | 400.0B | Да | 0.27 | 0.85 | 85.5% | 69.8% | - | - | - | - | - | |
| 70 | Llama 4 Scout | 10000K | 5 апр. 2025 г. | - | 109.0B | Да | 0.18 | 0.59 | 79.6% | 57.2% | - | - | - | - | - |
Размер контекстного окна
У каждой модели свой способ разделения текста на токены. Примерно токен = 3-4 символа, но зависит от языка и модели.
Важно: OpenAI считает по-одному, Claude по-другому, поэтому точные цифры всегда отличаются.
Чтобы понять масштаб — миллион токенов это:
~150 слов в минуту
~500 слов на страницу
~60 символов на строку
~150 слов в минуту
~500 слов на страницу
~60 символов на строку
На основе среднего количества символов в строке. См. Wikipedia.
Топ модели в вызове инструментов (Tool Calling)
Примеры Tool Calling в действии
→ send_email(to="ivan@company.com", subject="Отчёт", attachment="report.pdf")
→ get_weather(city="Moscow", lang="ru")
→ book_flight(date="2025-01-07", destination="SPB")
→ send_email(to="ivan@company.com", subject="Отчёт", attachment="report.pdf")
→ get_weather(city="Moscow", lang="ru")
→ book_flight(date="2025-01-07", destination="SPB")
Почему это важно для разработчиков
Представь: ты просишь модель проанализировать код, потом запустить тесты, затем зафиксировать изменения в git. Если модель в одном из шагов накосячит — всё развалится. Чем выше процент, тем меньше шансов, что твой автоматизированный процесс сломается на ровном месте.
Скорость генерации токенов
Отладка: 15 моделей, макс скорость: 327.7 т/с
Демонстрация скорости генерации токенов
Значения сбрасываются каждые 15 секунд для демонстрации разных скоростей
Рейтинги LLM
Лучшая модель - Код
Лучшая мультимодальная модель
Лучшая модель - Знания
Самый длинный контекст
Самый дешевый API
Самый быстрый API
Лучшая модель - Код
Лучшая мультимодальная модель
Лучшая модель - Знания
Самый длинный контекст
Самый дешевый API
Самый быстрый API
Новости ИИ
Последние события из мира нейросетей

Gemini помогла доказать теорему в алгебраической геометрии
Google запустила Personal Intelligence в Gemini

Orchestrator-8B: как маленькая модель NVIDIA обыгрывает GPT-5

Робованы в Китае стали мемом: почему будущее доставки выглядит так комично
Бенчмарки и тесты
MMLU
ЗнанияТест на понимание языка и широкие знания в 57 предметах
HumanEval
ПрограммированиеРешение задач по программированию на Python
GPQA
НаукаВопросы уровня PhD по физике, химии и биологии
ARC
РассужденияЛогические задачи для школьников на рассуждения
SWE-Bench
ИнженерияРеальные задачи разработки программного обеспечения
MMMU
МультимодальностьМультимодальные задачи на понимание изображений и текста
GSM8K
МатематикаМатематические задачи уровня начальной школы
HellaSwag
ПониманиеТест на здравый смысл и понимание контекста
Arena Hard
ДиалогиСложные задачи из пользовательских запросов
ComplexFuncBench
Tool CallingСложные сценарии вызова функций с многоступенчатыми задачами
Tau2
Tool CallingКомплексные сценарии вызова инструментов с множественными параметрами
ToolBench
Tool CallingПрактические задачи использования API в реальных сценариях
MMLU
ЗнанияТест на понимание языка и широкие знания в 57 предметах
HumanEval
ПрограммированиеРешение задач по программированию на Python
GPQA
НаукаВопросы уровня PhD по физике, химии и биологии
ARC
РассужденияЛогические задачи для школьников на рассуждения
SWE-Bench
ИнженерияРеальные задачи разработки программного обеспечения
MMMU
МультимодальностьМультимодальные задачи на понимание изображений и текста
GSM8K
МатематикаМатематические задачи уровня начальной школы
HellaSwag
ПониманиеТест на здравый смысл и понимание контекста
Arena Hard
ДиалогиСложные задачи из пользовательских запросов
ComplexFuncBench
Tool CallingСложные сценарии вызова функций с многоступенчатыми задачами
Tau2
Tool CallingКомплексные сценарии вызова инструментов с множественными параметрами
ToolBench
Tool CallingПрактические задачи использования API в реальных сценариях