LingBot-World: open-source модель превращает видео в интерактивные миры

Robbyant (Ant Group) выпустила LingBot-World — 28B MoE world model для генерации интерактивного видео в реальном времени: 16 FPS, до 10 минут стабильного видео.

Год назад text-to-video модели генерировали красивые, но мёртвые клипы. Нажать кнопку — получить 10 секунд видео, которое нельзя ни остановить, ни изменить, ни повернуть камеру. LingBot-World от Robbyant (подразделение Ant Group) меняет правила: это не просто генератор видео, а интерактивный симулятор мира, реагирующий на действия пользователя в реальном времени.

Что такое world model и почему это не просто видео

Обычные text-to-video модели работают как кинопроектор — запускаешь и смотришь. World model — это скорее игровой движок: модель учит физику мира, и каждый следующий кадр зависит от действий пользователя. Нажал W — персонаж идёт вперёд. Повернул мышь — камера поворачивается. Мир реагирует.

LingBot-World обучена на комбинации трёх типов данных: видео из интернета с людьми и транспортом, игровые записи с привязкой клавиш к кадрам, и синтетические траектории из Unreal Engine с полными параметрами камеры. Отдельный этап профилирования стандартизирует всё это, а иерархическая система подписей разделяет описание статичной сцены от описания движения — что критично для долгосрочной стабильности генерации.

Архитектура: 28B параметров, но считает как 14B

В основе LingBot-World лежит Wan2.2 — 14-миллиардный диффузионный трансформер для генерации видео. Команда Robbyant расширила его до архитектуры Mixture-of-Experts с двумя экспертами по 14B параметров каждый. Суммарно — 28B, но на каждом шаге деноизинга активен только один эксперт, поэтому вычислительная стоимость остаётся на уровне 14B модели.

Действия пользователя встраиваются напрямую в трансформерные блоки. Повороты камеры кодируются через Plücker embeddings, а нажатия клавиш — как multi-hot векторы. Эти кодировки проходят через адаптивные слои нормализации и модулируют скрытые состояния. Важно: дообучаются только слои-адаптеры действий, основной видео-backbone остаётся замороженным. Модель сохраняет визуальное качество из предобучения и при этом учится реагировать на ввод.

Тренировка использует curriculum — последовательности постепенно увеличиваются с 5 до 60 секунд. На поздних этапах повышается доля высокошумных timestep-ов, что стабилизирует глобальные планы и уменьшает mode collapse на длинных роллаутах.

Ключевые характеристики:

28B параметров (MoE, 2 эксперта × 14B)
Генерация до ~60 секунд за один проход
Авторегрессивные роллауты до 10 минут
Поддержка клавиатуры + мыши + камеры
Разрешение до 720p
Open-source: GitHub, HuggingFace

LingBot-World-Fast: 16 FPS для реального времени

Базовая модель всё ещё использует многошаговую диффузию с полным temporal attention — это дорого для интерактивного использования. Для этого создана ускоренная версия LingBot-World-Fast.

Быстрая модель заменяет полное temporal attention на block-causal attention: внутри каждого блока внимание двунаправленное, а между блоками — каузальное. Такой дизайн поддерживает key-value caching и позволяет стримить кадры авторегрессивно с меньшими затратами. Дистилляция объединяет diffusion forcing, Distribution Matching Distillation и адверсариальный дискриминатор.

Результат: 16 кадров в секунду при 480p на одном GPU-узле, задержка взаимодействия менее 1 секунды.

Эмерджентная память без 3D

Одно из самых удивительных свойств модели — эмерджентная память. LingBot-World сохраняет глобальную согласованность без явных 3D-представлений вроде Gaussian splatting. Когда камера уходит от Стоунхенджа и возвращается через 60 секунд, структура появляется с корректной геометрией. Когда автомобиль выезжает за кадр и позже возвращается, он оказывается в физически правдоподобном месте, а не застывает и не сбрасывается.

На VBench (100 сгенерированных видео длиннее 30 секунд) модель обошла Yume-1.5 и HY-World-1.5 по качеству изображения, эстетике и динамичности. Показатель dynamic degree — 0.8857 против 0.7612 и 0.7217 у конкурентов, что указывает на более сложные и реалистичные переходы между сценами.

Конкурент Google Genie 3

Если сравнивать с другими интерактивными системами — Matrix-Game-2.0, Mirage-2, Google Genie 3 — LingBot-World выделяется как одна из немногих полностью открытых world-моделей, которая одновременно покрывает широкий домен, поддерживает длинную генерацию, работает в 720p и обеспечивает real-time взаимодействие.

Модель уже поддерживает промптируемые события: текстовые инструкции могут менять погоду, освещение, стиль или инициировать локальные события (фейерверки, движение животных) с сохранением пространственной структуры. Сгенерированные потоки геометрически согласованы, поэтому их можно использовать для 3D-реконструкции — стабильные облака точек для indoor, outdoor и синтетических сцен.

Что это меняет

Для разработчиков игр и симуляций LingBot-World — это возможность создавать прототипы миров из одной картинки, без 3D-моделирования. Для робототехники — обучение агентов в симулированных средах, где каждый кадр реагирует на действия. Для автономного вождения — дешёвая генерация разнообразных дорожных сценариев.

Ant Group явно делает ставку на embodied AI — физический интеллект, который понимает не только текст, но и пространство. LingBot-World — открытый инструмент для этого, и его появление усиливает конкуренцию с закрытыми решениями от Google и NVIDIA.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

LingBot-World: open-source модель превращает видео в интерактивные миры

Что такое world model и почему это не просто видео

Архитектура: 28B параметров, но считает как 14B

LingBot-World-Fast: 16 FPS для реального времени

Эмерджентная память без 3D

Конкурент Google Genie 3

Что это меняет

Похожие новости

NO FAKES Act: как новый закон США угрожает open source AI

DeepSeek V4 выходит 17 февраля: что известно о новом coding-гиганте

Что стоит за Kimi K2.5: команда Moonshot AI о будущем модели