Karpathy запустил ИИ, который сам улучшает PyTorch — 126 экспериментов за ночь
Андрей Карпаши выпустил autoresearch: ИИ-агент читает код, формирует гипотезы, запускает эксперименты и фиксирует улучшения без участия человека. За две ночи — 11% прироста эффективности.

8 марта Андрей Карпаши написал в X: «Упаковал autoresearch в новый минималистичный репозиторий, если кто хочет поиграть на выходных». 630 строк кода, MIT-лицензия, ссылка на GitHub. К воскресенью пост набрал 8,6 миллиона просмотров. Не потому что Карпаши популярен — он популярен давно. А потому что люди поняли, что именно здесь произошло.
ИИ-агент, который сам читает свой код, сам придумывает, что улучшить, сам запускает эксперименты и сам решает, оставить изменение или откатить — это не гипотетический сценарий из футуристических манифестов. Это 630 строк Python, которые можно скачать прямо сейчас.
Как работает петля
Концепция проще, чем кажется. Агент получает два входных параметра: скрипт обучения (минимальная настройка LLM на PyTorch) и вычислительный бюджет — 5 минут на GPU. Дальше начинается цикл.
Агент читает код. Формулирует гипотезу: что если поменять learning rate, глубину модели, регуляризацию? Вносит изменение. Запускает 5-минутный эксперимент. Смотрит на валидационные потери в битах на байт. Если лучше — коммитит в feature-ветку. Если хуже — откатывает. Затем снова.
Никаких инструкций от человека. Никакого одобрения между итерациями. «Цель — выстроить агентов так, чтобы они делали максимально быстрый исследовательский прогресс бесконечно, без какого-либо вашего участия», — написал Карпаши в описании репозитория.
Метрика, по которой считается прогресс, называется «Time to GPT-2»: за сколько времени удаётся обучить модель до уровня GPT-2. Это стандартизированная точка сравнения для ML-исследований.
Что произошло за ночь
Карпаши запустил агента на ночь. Утром — 126 завершённых экспериментов. Валидационные потери снизились с 0.9979 до 0.9697. Для нейросетей это значимо.
За двухдневный прогон на более крупной модели агент прошёл через ~700 изменений кода. Нашёл 20 улучшений, которые переносятся на большие архитектуры. «Time to GPT-2» сократилось с 2.02 до 1.80 часа — 11% прироста. На кодовой базе, которую Карпаши, по его словам, считал уже хорошо отлаженной.
Интереснее всего одно наблюдение: агент поймал ошибки масштабирования внимания и регуляризации, которые Карпаши сам не замечал за двадцать лет работы с нейросетями.
Когда сообщество подхватило идею
На следующую ночь после публикации CEO Hyperspace AI Варун Матхур распределил единый агентский цикл по peer-to-peer сети. 35 автономных агентов провели 333 эксперимента параллельно, без надзора.
Произошло кое-что неожиданное. GPU-агенты на H100 применяли агрессивные learning rate. Агенты на обычных ноутбуках с CPU компенсировали вычислительные ограничения умными инициализациями — Kaiming, Xavier. Через протокол GossipSub агенты делились открытиями в реальном времени. Когда один нашёл, что инициализация Kaiming снижает потери на 21%, 23 других агента включили это в свои эксперименты в течение нескольких часов.
За 17 часов распределённая система самостоятельно переоткрыла RMSNorm и tied embeddings — вещи, которые исследователи Google Brain и OpenAI формализовали примерно за восемь лет.
Пользователь на Mac Mini M4 запустил 35 экспериментов overnight. 7 из них оказались успешными. Главный инсайт: «Модель стала лучше, становясь проще» — без каких-либо подсказок со стороны человека.
Что это меняет в исследованиях
VentureBeat назвал autoresearch «фундаментальным сдвигом в том, как рафинируется интеллект» — превращением машинного обучения в эволюционный процесс, работающий на скорости кремния, а не мысли человека.
Более точная формулировка такая: узкое место смещается. Раньше скорость исследований ограничивалась способностью человека придумывать и запускать эксперименты. Теперь она ограничивается способностью человека правильно определить пространство поиска и метрику успеха.
Это не отменяет роль исследователя. Но меняет её радикально. Карпаши, запуская agenta на выходные, занимался именно этим: он определил задачу и ушёл спать. Всё остальное агент сделал сам.
Кто-то в GitHub Discussions поднял вопрос об «испорченности» валидационной выборки — не оптимизирует ли агент под конкретный датасет вместо реального улучшения? Карпаши ответил прямо: нет, мы измеряем производительность на вычисления, а не на датасет. Улучшения реальны.
Что дальше
Autoresearch сейчас — это исследовательский инструмент для ML-специалистов. 630 строк, PyTorch, GPU. Но логика петли универсальна: читай код, формируй гипотезу, проверяй, фиксируй результат. Ничего в этой схеме не специфично для нейросетей. Теоретически она применима к любой области, где можно автоматически измерить качество результата.
Карпаши не делал громких заявлений. Он просто выложил репозиторий и предложил поиграть на выходных. Но 8,6 миллиона просмотров говорят о том, что люди поняли: то, что здесь произошло, — важно.


