DeepSeek учит модели «тыкать пальцем»: Thinking with Visual Primitives
DeepSeek показала новую парадигму визуального reasoning. Модель встраивает координаты прямо в chain of thought и обходит GPT-5.4 в задачах на пространственное мышление.

Покажите мощной мультимодальной модели фотографию плотной толпы и спросите «сколько здесь людей?» — она почти гарантированно ошибётся. Покажите сложную электрическую схему и спросите «красный конденсатор слева — справа или слева от индуктора справа?» — ответ будет уклончивым или противоречивым. Не потому что модель плохо видит. А потому что она не умеет «показывать пальцем» сама себе во время рассуждения. Эту проблему DeepSeek назвала Reference Gap — и в новой работе с Пекинским и Цинхуа университетами предложила архитектурное решение, которое уделывает GPT-5.4 на 17 процентных пунктов в навигации по лабиринтам.
Что произошло
29 апреля Чен Сяокан из DeepSeek опубликовал в X пост, который быстро разошёлся среди ML-исследователей. На следующий день DeepSeek официально выложила в GitHub-репозиторий новую мультимодальную модель и сопроводительный технический отчёт. Название работы — Thinking with Visual Primitives — даёт точное описание идеи.
В отличие от большинства релизов DeepSeek (V3, V4, R1, V4-Flash), это не очередная конкурентная модель «с лучшими бенчмарками за меньшие деньги». Это методологическая работа, которая меняет то, как multimodal LLM думает, когда у неё на входе картинка. Архитектурно модель построена поверх V4-Flash — недавно вышедшего MoE на 284B общих и 13B активных параметров — и использует собственную DeepSeek ViT в качестве визуального энкодера, поддерживающую вход любого разрешения.
Reference Gap: что это и почему он важен
Авторы статьи начинают с честного признания: за последние два года индустрия серьёзно продвинулась в perception. Современные мультимодальные модели «видят» картинки в высоком разрешении благодаря технике dynamic tiling и крупным ViT-энкодерам. Но «видеть» и «уметь сказать, на что именно я смотрю» — две разных способности. Первое — perception gap. Второе — reference gap.
Представьте, что вы описываете другу сложную позицию на шахматной доске, а он не видит экран. Вы говорите «фигура слева возьмёт ту, что чуть правее центра» — и друг не понимает, о каких именно двух фигурах идёт речь. Ровно эту проблему испытывает мультимодальная модель, когда строит chain of thought на естественном языке. Описания «большая фигура слева» или «красный объект ближе к центру» дрейфуют в плотных сценах. Внимание модели рассыпается, и финальный ответ оказывается не основанным на том объекте, который модель «имела в виду».
Предыдущие академические попытки решить это шли через perception: больше тайлов, выше разрешение, больше визуальных токенов. DeepSeek доказывает: одного perception мало. Нужна способность точно ссылаться на конкретный объект во время рассуждения.
Идея: координаты как «единицы мышления»
Главное изобретение работы — встраивание координат и bounding boxes прямо в chain of thought. Не как финальный ответ модели («вот тут на картинке коробка»), а как промежуточный токен мысли.
В традиционном подходе модель сначала рассуждает текстом, затем выдаёт координаты в финальном ответе. В подходе DeepSeek модель пишет так:
Сканирую картинку на наличие медведей. Нашёл одного
<|ref|>медведь<|/ref|><|box|>[[452,23,804,411]]<|/box|>.
Он залез на дерево, не на земле — значит, исключаем.
Смотрю ниже и левее, нашёл ещё одного
<|ref|>медведь<|/ref|><|box|>[[50,447,647,771]]<|/box|>,
стоит на краю скалы — подходит под критерии.
Координаты больше не финальный ответ — они становятся «якорями», к которым прикреплён каждый шаг логики. Модель не может «дрейфовать» от объекта к объекту, потому что каждый объект, на который она ссылается, привязан к конкретным пикселям. Это похоже на то, как человек считает что-то, тыкая пальцем в каждый объект по очереди.
В системе два типа примитивов: bounding boxes (<|box|>) для объектов, требующих информации о размере и положении, и точечные координаты (<|point|>) для более абстрактных пространственных ссылок — например, для пути по лабиринту или прослеживания кривой.
7056-кратное сжатие визуальных токенов
Параллельно с reference-механизмом DeepSeek решает вторую проблему — стоимость. Высокое разрешение картинок означает много визуальных токенов, что раздувает context и убивает inference latency. Decoder-стек у DeepSeek построен так:
| Этап | Количество токенов |
|---|---|
| Картинка 756×756 пикселей | ~571 536 пикселей |
| После DeepSeek ViT | 2 916 image-block токенов |
| После 3×3 spatial compression | 324 токена в LLM |
| После Compressed Sparse Attention (CSA) в V4-Flash | 81 KV-entry |
Итоговое сжатие — 7056× от исходных пикселей до KV-кеша. Для картинки 800×800 это ~90 KV-entries, тогда как Claude Sonnet 4.6 хранит около 870, а Gemini 3 Flash — около 1100. То есть DeepSeek считает на порядок дешевле. Гипотеза авторов: точная пространственная ссылочность отчасти заменяет необходимость «видеть много». Модели не нужно «видеть больше» — ей нужно «точнее показывать пальцем».
Cold-start data: как обучали
Третий вектор инноваций — данные. Команда собрала ~100 000 датасетов, связанных с object detection, и через два раунда фильтрации (семантическая и геометрическая проверка качества) оставила ~31 700 источников, на которых сгенерировала >40 миллионов обучающих сэмплов.
Cold-start данные для «мышления визуальными примитивами» разделены на четыре типа задач, каждый со своей логикой обучения:
- Counting — coarse-grained («сколько людей на картинке») и fine-grained («сколько в синем»). Для первого модель учится «локализовать пачкой и считать», для второго — «сканировать по одному и проверять атрибут». Это разные когнитивные стратегии, и они тренируются раздельно.
- Spatial reasoning и VQA — multi-hop reasoning на GQA (натуральные сцены) и CLEVR (контролируемые синтетические сцены). На каждом шаге рассуждения модель обязана локализовать релевантный объект bounding-box'ом.
- Maze navigation — 460 000 сэмплов лабиринтов трёх топологий (прямоугольные, круговые, шестиугольные), сгенерированных через DFS, Prim и Kruskal. Среди них — специально нерешаемые лабиринты для тренировки робастности. Модель использует точечные координаты, чтобы записывать шаги исследования и помечать тупики.
- Path tracing — 125 000 сэмплов с пересекающимися Безье-кривыми. Модель должна проследить кривую от начальной точки до конечной, не «срезая» через цвет — для этого специально была сделана версия датасета с одноцветными кривыми.
В пост-тренинге команда использовала стратегию «специализация → объединение». Сначала тренируются два эксперта (FTwG и FTwP) на bounding-box и point-данных раздельно, чтобы избежать интерференции при малом объёме данных. Затем GRPO-RL с детальными reward-функциями — format, quality, precision — каждый со своей логикой. Для maze есть пять отдельных reward-компонент, включая «штраф за прохождение через стену».
Финальный шаг — On-Policy Distillation: студенческая модель генерирует свои траектории, и их распределение прижимается к экспертному через минимизацию KL-divergence. Это закрывает разрыв между унифицированной моделью и двумя экспертами.
Цифры: где DeepSeek уделывает фронтир
Бенчмарк включает 11 тестов, прогнанных через единый prompt против Gemini 3 Flash, GPT-5.4, Claude Sonnet 4.6, Gemma 4-31B и Qwen 3-VL-235B. Главные результаты:
| Бенчмарк | DeepSeek TwVP | GPT-5.4 | Gemini 3 Flash | Claude Sonnet 4.6 |
|---|---|---|---|---|
| Pixmo-Count (exact match) | 89.2% | 76.6% | 88.2% | 68.7% |
| DS Fine-grained Counting | 88.7% | n/a | n/a | n/a |
| MIHBench | 85.3% | n/a | n/a | n/a |
| SpatialMQA | 69.4% | n/a | n/a | n/a |
| DS Maze Navigation | 66.9% | 50.6% | 49.4% | 48.9% |
| DS Path Tracing | 56.7% | 46.5% | 41.4% | n/a |
Самое интересное в этой таблице — не то, где DeepSeek первый, а то, насколько провально все фронтир-модели работают на топологическом мышлении. Лабиринты и path tracing — задачи, где «увидеть» картинку не помогает; нужно реально шаг за шагом следовать по структуре, держа в голове, где ты уже был. Все основные модели берут около половины — то есть на уровне почти случайного угадывания на простых лабиринтах. DeepSeek с Visual Primitives поднимает планку на 17 процентных пунктов.
Авторы честно фиксируют ограничение: «все фронтир-модели плохо работают в топологическом reasoning, что показывает значительный room for improvement в visual reasoning». Это редкое признание из академической работы — обычно тон обратный.
Что это значит для индустрии
Reference Gap — не очень громкое название, но проблема, которую DeepSeek сформулировала и решила, выходит далеко за пределы лабиринтов и подсчёта медведей. Любой агент, который должен взаимодействовать с реальным миром через картинку — UI navigation в браузере, робот, читающий чертёж, медицинская модель, которая ищет аномалии на снимке — упирается в одну и ту же проблему. Модель «видит» картинку, но без явного механизма ссылок «дрейфует» при попытке рассуждать о конкретных объектах.
Если методология Thinking with Visual Primitives окажется переносимой — а DeepSeek опубликовала открытые веса и код — её начнут перенимать. Anthropic и OpenAI скорее всего быстро встроят похожий reference-механизм в свои тренировочные пайплайны. Это та редкая ситуация, когда работа из Китая публикуется как академический инсайт, и западные лабы немедленно её адаптируют — потому что польза слишком очевидна.
Параллельный, возможно более важный вывод: 7056-кратное сжатие визуальных токенов через CSA-механизм V4-Flash переписывает экономику multimodal inference. Если можно пропустить картинку через 81 KV-entry вместо 1100, у вас на порядок дешевле inference. Это сразу делает реалистичным широкое развёртывание visual agents в продакшене — там, где раньше cost-per-call закрывал большинство кейсов.
Что дальше
DeepSeek с этой работой делает несколько вещей одновременно. Сужает gap до фронтира на специфичной, но важной нише (visual reasoning). Демонстрирует, что MoE-архитектура V4-Flash — гибкая основа, к которой можно прикручивать специализированные capability без переучивания всей модели. Открывает методологию, которая, вероятно, появится в Gemini, GPT и Claude в следующих циклах. И ещё раз показывает, что китайские лаборатории больше не просто догоняют по бенчмаркам — они начинают предлагать архитектурные идеи, которые задают тренд.
Для разработчиков, которые строят visual agents или работают с multimodal RAG, главный практический вывод: модель из репозитория DeepSeek уже выложена, веса доступны, и её можно скачать и запустить. Сравните на своих сценариях с тем, что вы используете сейчас — особенно если ваши данные включают плотные сцены, схемы, чертежи или любые задачи, где «показать пальцем на конкретный объект» — критично для правильного ответа.


