Karpathy запустил ИИ, который сам улучшает PyTorch — 126 экспериментов за ночь

Андрей Карпаши выпустил autoresearch: ИИ-агент читает код, формирует гипотезы, запускает эксперименты и фиксирует улучшения без участия человека. За две ночи — 11% прироста эффективности.

8 марта Андрей Карпаши написал в X: «Упаковал autoresearch в новый минималистичный репозиторий, если кто хочет поиграть на выходных». 630 строк кода, MIT-лицензия, ссылка на GitHub. К воскресенью пост набрал 8,6 миллиона просмотров. Не потому что Карпаши популярен — он популярен давно. А потому что люди поняли, что именно здесь произошло.

ИИ-агент, который сам читает свой код, сам придумывает, что улучшить, сам запускает эксперименты и сам решает, оставить изменение или откатить — это не гипотетический сценарий из футуристических манифестов. Это 630 строк Python, которые можно скачать прямо сейчас.

Как работает петля

Концепция проще, чем кажется. Агент получает два входных параметра: скрипт обучения (минимальная настройка LLM на PyTorch) и вычислительный бюджет — 5 минут на GPU. Дальше начинается цикл.

Агент читает код. Формулирует гипотезу: что если поменять learning rate, глубину модели, регуляризацию? Вносит изменение. Запускает 5-минутный эксперимент. Смотрит на валидационные потери в битах на байт. Если лучше — коммитит в feature-ветку. Если хуже — откатывает. Затем снова.

Никаких инструкций от человека. Никакого одобрения между итерациями. «Цель — выстроить агентов так, чтобы они делали максимально быстрый исследовательский прогресс бесконечно, без какого-либо вашего участия», — написал Карпаши в описании репозитория.

Метрика, по которой считается прогресс, называется «Time to GPT-2»: за сколько времени удаётся обучить модель до уровня GPT-2. Это стандартизированная точка сравнения для ML-исследований.

Что произошло за ночь

Карпаши запустил агента на ночь. Утром — 126 завершённых экспериментов. Валидационные потери снизились с 0.9979 до 0.9697. Для нейросетей это значимо.

За двухдневный прогон на более крупной модели агент прошёл через ~700 изменений кода. Нашёл 20 улучшений, которые переносятся на большие архитектуры. «Time to GPT-2» сократилось с 2.02 до 1.80 часа — 11% прироста. На кодовой базе, которую Карпаши, по его словам, считал уже хорошо отлаженной.

Интереснее всего одно наблюдение: агент поймал ошибки масштабирования внимания и регуляризации, которые Карпаши сам не замечал за двадцать лет работы с нейросетями.

Когда сообщество подхватило идею

На следующую ночь после публикации CEO Hyperspace AI Варун Матхур распределил единый агентский цикл по peer-to-peer сети. 35 автономных агентов провели 333 эксперимента параллельно, без надзора.

Произошло кое-что неожиданное. GPU-агенты на H100 применяли агрессивные learning rate. Агенты на обычных ноутбуках с CPU компенсировали вычислительные ограничения умными инициализациями — Kaiming, Xavier. Через протокол GossipSub агенты делились открытиями в реальном времени. Когда один нашёл, что инициализация Kaiming снижает потери на 21%, 23 других агента включили это в свои эксперименты в течение нескольких часов.

За 17 часов распределённая система самостоятельно переоткрыла RMSNorm и tied embeddings — вещи, которые исследователи Google Brain и OpenAI формализовали примерно за восемь лет.

Пользователь на Mac Mini M4 запустил 35 экспериментов overnight. 7 из них оказались успешными. Главный инсайт: «Модель стала лучше, становясь проще» — без каких-либо подсказок со стороны человека.

Что это меняет в исследованиях

VentureBeat назвал autoresearch «фундаментальным сдвигом в том, как рафинируется интеллект» — превращением машинного обучения в эволюционный процесс, работающий на скорости кремния, а не мысли человека.

Более точная формулировка такая: узкое место смещается. Раньше скорость исследований ограничивалась способностью человека придумывать и запускать эксперименты. Теперь она ограничивается способностью человека правильно определить пространство поиска и метрику успеха.

Это не отменяет роль исследователя. Но меняет её радикально. Карпаши, запуская agenta на выходные, занимался именно этим: он определил задачу и ушёл спать. Всё остальное агент сделал сам.

Кто-то в GitHub Discussions поднял вопрос об «испорченности» валидационной выборки — не оптимизирует ли агент под конкретный датасет вместо реального улучшения? Карпаши ответил прямо: нет, мы измеряем производительность на вычисления, а не на датасет. Улучшения реальны.

Что дальше

Autoresearch сейчас — это исследовательский инструмент для ML-специалистов. 630 строк, PyTorch, GPU. Но логика петли универсальна: читай код, формируй гипотезу, проверяй, фиксируй результат. Ничего в этой схеме не специфично для нейросетей. Теоретически она применима к любой области, где можно автоматически измерить качество результата.

Карпаши не делал громких заявлений. Он просто выложил репозиторий и предложил поиграть на выходных. Но 8,6 миллиона просмотров говорят о том, что люди поняли: то, что здесь произошло, — важно.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Karpathy запустил ИИ, который сам улучшает PyTorch — 126 экспериментов за ночь

Как работает петля

Что произошло за ночь

Когда сообщество подхватило идею

Что это меняет в исследованиях

Что дальше

Похожие новости

AI-агент Alibaba начал майнить крипту и сканировать сети без разрешения

Почему локальные LLM больше не уступают облачным

Anthropic выпустила Cowork: Claude теперь работает с файлами на вашем компьютере