DreamDojo: как NVIDIA учит роботов на 44 000 часах видео

NVIDIA представила DreamDojo — foundation world model для роботов, обученную на крупнейшем датасете человеческих видео. Модель симулирует манипуляции в реальном времени.

Представьте: робот берёт в руки незнакомый предмет — скажем, звёздчатый фрукт — и аккуратно укладывает его в пакет. Он никогда раньше не видел этот объект и не тренировался в этой комнате. Но он «знает», как взаимодействовать с физическим миром, потому что перед этим наблюдал за десятками тысяч часов человеческих видео. Именно такую способность даёт DreamDojo — новая foundation world model от NVIDIA, опубликованная 6 февраля на arXiv.

Проблема: роботы не видели достаточно мира

Современные world models для робототехники натренированы на данных телеуправления — когда оператор вручную управляет роботом, а система записывает траектории. Проблема в том, что таких данных мало и они однообразны. Самый крупный робототехнический датасет AgiBot-World содержит 2 900 часов записей, покрывает 87 навыков и 106 сцен. Для сравнения, типичный домашний быт включает тысячи типов взаимодействий с предметами, и большинство из них роботы никогда не наблюдали.

Из-за этого ограничения существующие модели хорошо работают в знакомых сценариях — лабораторный стол с привычными объектами — но ломаются при встрече с чем-то новым. Если робот никогда не видел, как мнётся ткань или как перекатывается цилиндрический предмет, он не сможет корректно предсказать последствия своих действий.

44 000 часов человеческого опыта

Команда из NVIDIA, HKUST, UC Berkeley, Stanford и других университетов пошла другим путём. Вместо дорогостоящего сбора робототехнических данных они собрали DreamDojo-HV — крупнейший на сегодня датасет эгоцентрических видео от первого лица, записанных людьми в процессе повседневной деятельности.

Масштаб впечатляет:

44 711 часов видео (для сравнения — это ~5 лет непрерывной записи)
1,135 млн траекторий
6 015 уникальных навыков
более 43 000 уникальных объектов
более 9 800 различных сцен — от кухонь до промышленных цехов

Это на порядки больше любого робототехнического датасета. По числу навыков — в 96 раз больше, чем AgiBot-World, по количеству сцен — в 2 000 раз больше DROID.

Как перенести знания от человека к роботу

Очевидный вопрос: человеческие руки — это не робот. Как перенести знания из видео с людьми на механического манипулятора? Ответ DreamDojo — latent actions, скрытые представления действий.

Команда обучила отдельную модель (700M параметров, архитектура spatiotemporal Transformer), которая смотрит на два последовательных кадра и извлекает из них компактный вектор действия — 32-мерное представление того, «что произошло» между кадрами. Это работает как информационное бутылочное горлышко: модель вынуждена сжать самое существенное движение в крошечный вектор, отбрасывая визуальный контекст.

Ключевое наблюдение: эти скрытые действия оказываются семантически осмысленными и переносимыми между телами. Когда исследователи сгруппировали пары кадров с похожими latent actions из разных датасетов, выяснилось, что и человек, и робот выполняли одно и то же движение — несмотря на визуально совершенно разный контекст. Вращение запястья остаётся вращением запястья, будь это человеческая рука или манипулятор Fourier GR-1.

Архитектура и обучение

DreamDojo построена на базе Cosmos-Predict2.5 — видео-диффузионной модели от NVIDIA. Обучение проходит в три стадии.

На первой стадии модель предтренируется на 44K часах человеческих видео с latent actions в качестве условий. Это даёт ей широкое понимание физики: как падают предметы, как деформируются мягкие объекты, как ведут себя жидкости.

Вторая стадия — post-training на данных конкретного робота. Здесь слой латентных действий перестраивается под реальное пространство действий целевого манипулятора. Благодаря сильному предтренингу для этого достаточно относительно небольшого набора данных из ограниченного числа сцен.

Третья стадия — дистилляция для работы в реальном времени. Исходная модель генерирует видео со скоростью 2.72 FPS — слишком медленно для практических приложений. Через процесс дистилляции по методу Self Forcing команда получает автокаузальную модель, которая работает на 10.81 FPS при разрешении 640×480, сохраняя качество симуляции.

Модель представлена в двух вариантах — 2B и 14B параметров. Обучение 14B-версии заняло 140 000 шагов на 256 GPU NVIDIA H100.

Что умеет DreamDojo

Результаты тестирования показывают устойчивое превосходство DreamDojo над базовой Cosmos-Predict2.5 на всех бенчмарках. В оценке людьми (12 экспертов) модель 14B побеждала в 73.5% случаев по физической корректности и в 72.5% по точности следования действиям.

Но самое интересное — практические приложения. DreamDojo уже работает как:

Виртуальный симулятор для оценки политик. Робот AgiBot выполняет задачу упаковки фруктов — DreamDojo симулирует те же сцены в видео. Корреляция Пирсона между реальным и смоделированным success rate составила 0.995. По сути, вместо дорогих реальных тестов можно прогонять сценарии в DreamDojo и получать почти идентичные результаты.

Планирование действий. Перед каждым шагом робот генерирует несколько вариантов будущего через DreamDojo и выбирает лучший. Это дало прирост success rate до 2× по сравнению с случайным выбором действий.

Телеуправление в реальном времени. С помощью VR-контроллера PICO можно управлять виртуальным роботом Unitree G1 через DreamDojo на обычной RTX 5090 — модель генерирует видеопоток в реальном времени.

Что это меняет

DreamDojo — это не просто очередная world model. Это демонстрация нового подхода к обучению роботов: вместо того чтобы собирать данные руками, можно использовать миллионы часов человеческих видео, которые уже существуют.

Для разработчиков робототехнических систем это означает радикальное снижение порога входа. Не нужно тысячи часов телеуправления — достаточно небольшого набора данных конкретного робота для финального дообучения. Все знания о физике мира приходят из человеческого опыта.

Авторы честно признают ограничения: модель не всегда корректно симулирует необычные действия вроде шлепков или быстрых взмахов, а абсолютные значения success rate в симуляции завышены относительно реальности. Мультивидовая симуляция пока не поддерживается, хотя это критически важно для современных робототехнических систем.

Выводы

DreamDojo открывает путь к foundation world models для робототехники — моделям, которые понимают физику мира достаточно хорошо, чтобы генерализовать на новые объекты и сцены. Масштаб данных (44K часов) и качество переноса знаний (latent actions) — два ключевых прорыва этой работы.

Следующий шаг — мультивидовая симуляция и расширение покрытия действий через policy rollouts. Если эти проблемы удастся решить, мы приблизимся к моменту, когда робот сможет научиться любой бытовой задаче, просто посмотрев, как это делает человек.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

DreamDojo: как NVIDIA учит роботов на 44 000 часах видео

Проблема: роботы не видели достаточно мира

44 000 часов человеческого опыта

Как перенести знания от человека к роботу

Архитектура и обучение

Что умеет DreamDojo

Что это меняет

Выводы

Похожие новости

Что такое интеллект? Ответ Jensen Huang взорвал Reddit

Субквадратичное внимание: 76 токенов/с на 10 миллионах контекста на одной GPU

Почему NVIDIA непобедима: 4 миллиона разработчиков важнее железа