LingBot-World: open-source модель превращает видео в интерактивные миры
Robbyant (Ant Group) выпустила LingBot-World — 28B MoE world model для генерации интерактивного видео в реальном времени: 16 FPS, до 10 минут стабильного видео.

Год назад text-to-video модели генерировали красивые, но мёртвые клипы. Нажать кнопку — получить 10 секунд видео, которое нельзя ни остановить, ни изменить, ни повернуть камеру. LingBot-World от Robbyant (подразделение Ant Group) меняет правила: это не просто генератор видео, а интерактивный симулятор мира, реагирующий на действия пользователя в реальном времени.
Что такое world model и почему это не просто видео
Обычные text-to-video модели работают как кинопроектор — запускаешь и смотришь. World model — это скорее игровой движок: модель учит физику мира, и каждый следующий кадр зависит от действий пользователя. Нажал W — персонаж идёт вперёд. Повернул мышь — камера поворачивается. Мир реагирует.
LingBot-World обучена на комбинации трёх типов данных: видео из интернета с людьми и транспортом, игровые записи с привязкой клавиш к кадрам, и синтетические траектории из Unreal Engine с полными параметрами камеры. Отдельный этап профилирования стандартизирует всё это, а иерархическая система подписей разделяет описание статичной сцены от описания движения — что критично для долгосрочной стабильности генерации.
Архитектура: 28B параметров, но считает как 14B
В основе LingBot-World лежит Wan2.2 — 14-миллиардный диффузионный трансформер для генерации видео. Команда Robbyant расширила его до архитектуры Mixture-of-Experts с двумя экспертами по 14B параметров каждый. Суммарно — 28B, но на каждом шаге деноизинга активен только один эксперт, поэтому вычислительная стоимость остаётся на уровне 14B модели.
Действия пользователя встраиваются напрямую в трансформерные блоки. Повороты камеры кодируются через Plücker embeddings, а нажатия клавиш — как multi-hot векторы. Эти кодировки проходят через адаптивные слои нормализации и модулируют скрытые состояния. Важно: дообучаются только слои-адаптеры действий, основной видео-backbone остаётся замороженным. Модель сохраняет визуальное качество из предобучения и при этом учится реагировать на ввод.
Тренировка использует curriculum — последовательности постепенно увеличиваются с 5 до 60 секунд. На поздних этапах повышается доля высокошумных timestep-ов, что стабилизирует глобальные планы и уменьшает mode collapse на длинных роллаутах.
Ключевые характеристики:
- 28B параметров (MoE, 2 эксперта × 14B)
- Генерация до ~60 секунд за один проход
- Авторегрессивные роллауты до 10 минут
- Поддержка клавиатуры + мыши + камеры
- Разрешение до 720p
- Open-source: GitHub, HuggingFace
LingBot-World-Fast: 16 FPS для реального времени
Базовая модель всё ещё использует многошаговую диффузию с полным temporal attention — это дорого для интерактивного использования. Для этого создана ускоренная версия LingBot-World-Fast.
Быстрая модель заменяет полное temporal attention на block-causal attention: внутри каждого блока внимание двунаправленное, а между блоками — каузальное. Такой дизайн поддерживает key-value caching и позволяет стримить кадры авторегрессивно с меньшими затратами. Дистилляция объединяет diffusion forcing, Distribution Matching Distillation и адверсариальный дискриминатор.
Результат: 16 кадров в секунду при 480p на одном GPU-узле, задержка взаимодействия менее 1 секунды.
Эмерджентная память без 3D
Одно из самых удивительных свойств модели — эмерджентная память. LingBot-World сохраняет глобальную согласованность без явных 3D-представлений вроде Gaussian splatting. Когда камера уходит от Стоунхенджа и возвращается через 60 секунд, структура появляется с корректной геометрией. Когда автомобиль выезжает за кадр и позже возвращается, он оказывается в физически правдоподобном месте, а не застывает и не сбрасывается.
На VBench (100 сгенерированных видео длиннее 30 секунд) модель обошла Yume-1.5 и HY-World-1.5 по качеству изображения, эстетике и динамичности. Показатель dynamic degree — 0.8857 против 0.7612 и 0.7217 у конкурентов, что указывает на более сложные и реалистичные переходы между сценами.
Конкурент Google Genie 3
Если сравнивать с другими интерактивными системами — Matrix-Game-2.0, Mirage-2, Google Genie 3 — LingBot-World выделяется как одна из немногих полностью открытых world-моделей, которая одновременно покрывает широкий домен, поддерживает длинную генерацию, работает в 720p и обеспечивает real-time взаимодействие.
Модель уже поддерживает промптируемые события: текстовые инструкции могут менять погоду, освещение, стиль или инициировать локальные события (фейерверки, движение животных) с сохранением пространственной структуры. Сгенерированные потоки геометрически согласованы, поэтому их можно использовать для 3D-реконструкции — стабильные облака точек для indoor, outdoor и синтетических сцен.
Что это меняет
Для разработчиков игр и симуляций LingBot-World — это возможность создавать прототипы миров из одной картинки, без 3D-моделирования. Для робототехники — обучение агентов в симулированных средах, где каждый кадр реагирует на действия. Для автономного вождения — дешёвая генерация разнообразных дорожных сценариев.
Ant Group явно делает ставку на embodied AI — физический интеллект, который понимает не только текст, но и пространство. LingBot-World — открытый инструмент для этого, и его появление усиливает конкуренцию с закрытыми решениями от Google и NVIDIA.


