DeepSeek учит модели «тыкать пальцем»: Thinking with Visual Primitives

DeepSeek показала новую парадигму визуального reasoning. Модель встраивает координаты прямо в chain of thought и обходит GPT-5.4 в задачах на пространственное мышление.

Покажите мощной мультимодальной модели фотографию плотной толпы и спросите «сколько здесь людей?» — она почти гарантированно ошибётся. Покажите сложную электрическую схему и спросите «красный конденсатор слева — справа или слева от индуктора справа?» — ответ будет уклончивым или противоречивым. Не потому что модель плохо видит. А потому что она не умеет «показывать пальцем» сама себе во время рассуждения. Эту проблему DeepSeek назвала Reference Gap — и в новой работе с Пекинским и Цинхуа университетами предложила архитектурное решение, которое уделывает GPT-5.4 на 17 процентных пунктов в навигации по лабиринтам.

Что произошло

29 апреля Чен Сяокан из DeepSeek опубликовал в X пост, который быстро разошёлся среди ML-исследователей. На следующий день DeepSeek официально выложила в GitHub-репозиторий новую мультимодальную модель и сопроводительный технический отчёт. Название работы — Thinking with Visual Primitives — даёт точное описание идеи.

В отличие от большинства релизов DeepSeek (V3, V4, R1, V4-Flash), это не очередная конкурентная модель «с лучшими бенчмарками за меньшие деньги». Это методологическая работа, которая меняет то, как multimodal LLM думает, когда у неё на входе картинка. Архитектурно модель построена поверх V4-Flash — недавно вышедшего MoE на 284B общих и 13B активных параметров — и использует собственную DeepSeek ViT в качестве визуального энкодера, поддерживающую вход любого разрешения.

Reference Gap: что это и почему он важен

Авторы статьи начинают с честного признания: за последние два года индустрия серьёзно продвинулась в perception. Современные мультимодальные модели «видят» картинки в высоком разрешении благодаря технике dynamic tiling и крупным ViT-энкодерам. Но «видеть» и «уметь сказать, на что именно я смотрю» — две разных способности. Первое — perception gap. Второе — reference gap.

Представьте, что вы описываете другу сложную позицию на шахматной доске, а он не видит экран. Вы говорите «фигура слева возьмёт ту, что чуть правее центра» — и друг не понимает, о каких именно двух фигурах идёт речь. Ровно эту проблему испытывает мультимодальная модель, когда строит chain of thought на естественном языке. Описания «большая фигура слева» или «красный объект ближе к центру» дрейфуют в плотных сценах. Внимание модели рассыпается, и финальный ответ оказывается не основанным на том объекте, который модель «имела в виду».

Предыдущие академические попытки решить это шли через perception: больше тайлов, выше разрешение, больше визуальных токенов. DeepSeek доказывает: одного perception мало. Нужна способность точно ссылаться на конкретный объект во время рассуждения.

Идея: координаты как «единицы мышления»

Главное изобретение работы — встраивание координат и bounding boxes прямо в chain of thought. Не как финальный ответ модели («вот тут на картинке коробка»), а как промежуточный токен мысли.

В традиционном подходе модель сначала рассуждает текстом, затем выдаёт координаты в финальном ответе. В подходе DeepSeek модель пишет так:

Сканирую картинку на наличие медведей. Нашёл одного 
<|ref|>медведь<|/ref|><|box|>[[452,23,804,411]]<|/box|>. 
Он залез на дерево, не на земле — значит, исключаем. 
Смотрю ниже и левее, нашёл ещё одного 
<|ref|>медведь<|/ref|><|box|>[[50,447,647,771]]<|/box|>, 
стоит на краю скалы — подходит под критерии.

Координаты больше не финальный ответ — они становятся «якорями», к которым прикреплён каждый шаг логики. Модель не может «дрейфовать» от объекта к объекту, потому что каждый объект, на который она ссылается, привязан к конкретным пикселям. Это похоже на то, как человек считает что-то, тыкая пальцем в каждый объект по очереди.

В системе два типа примитивов: bounding boxes (<|box|>) для объектов, требующих информации о размере и положении, и точечные координаты (<|point|>) для более абстрактных пространственных ссылок — например, для пути по лабиринту или прослеживания кривой.

7056-кратное сжатие визуальных токенов

Параллельно с reference-механизмом DeepSeek решает вторую проблему — стоимость. Высокое разрешение картинок означает много визуальных токенов, что раздувает context и убивает inference latency. Decoder-стек у DeepSeek построен так:

Этап	Количество токенов
Картинка 756×756 пикселей	~571 536 пикселей
После DeepSeek ViT	2 916 image-block токенов
После 3×3 spatial compression	324 токена в LLM
После Compressed Sparse Attention (CSA) в V4-Flash	81 KV-entry

Итоговое сжатие — 7056× от исходных пикселей до KV-кеша. Для картинки 800×800 это ~90 KV-entries, тогда как Claude Sonnet 4.6 хранит около 870, а Gemini 3 Flash — около 1100. То есть DeepSeek считает на порядок дешевле. Гипотеза авторов: точная пространственная ссылочность отчасти заменяет необходимость «видеть много». Модели не нужно «видеть больше» — ей нужно «точнее показывать пальцем».

Cold-start data: как обучали

Третий вектор инноваций — данные. Команда собрала ~100 000 датасетов, связанных с object detection, и через два раунда фильтрации (семантическая и геометрическая проверка качества) оставила ~31 700 источников, на которых сгенерировала >40 миллионов обучающих сэмплов.

Cold-start данные для «мышления визуальными примитивами» разделены на четыре типа задач, каждый со своей логикой обучения:

Counting — coarse-grained («сколько людей на картинке») и fine-grained («сколько в синем»). Для первого модель учится «локализовать пачкой и считать», для второго — «сканировать по одному и проверять атрибут». Это разные когнитивные стратегии, и они тренируются раздельно.
Spatial reasoning и VQA — multi-hop reasoning на GQA (натуральные сцены) и CLEVR (контролируемые синтетические сцены). На каждом шаге рассуждения модель обязана локализовать релевантный объект bounding-box'ом.
Maze navigation — 460 000 сэмплов лабиринтов трёх топологий (прямоугольные, круговые, шестиугольные), сгенерированных через DFS, Prim и Kruskal. Среди них — специально нерешаемые лабиринты для тренировки робастности. Модель использует точечные координаты, чтобы записывать шаги исследования и помечать тупики.
Path tracing — 125 000 сэмплов с пересекающимися Безье-кривыми. Модель должна проследить кривую от начальной точки до конечной, не «срезая» через цвет — для этого специально была сделана версия датасета с одноцветными кривыми.

В пост-тренинге команда использовала стратегию «специализация → объединение». Сначала тренируются два эксперта (FTwG и FTwP) на bounding-box и point-данных раздельно, чтобы избежать интерференции при малом объёме данных. Затем GRPO-RL с детальными reward-функциями — format, quality, precision — каждый со своей логикой. Для maze есть пять отдельных reward-компонент, включая «штраф за прохождение через стену».

Финальный шаг — On-Policy Distillation: студенческая модель генерирует свои траектории, и их распределение прижимается к экспертному через минимизацию KL-divergence. Это закрывает разрыв между унифицированной моделью и двумя экспертами.

Цифры: где DeepSeek уделывает фронтир

Бенчмарк включает 11 тестов, прогнанных через единый prompt против Gemini 3 Flash, GPT-5.4, Claude Sonnet 4.6, Gemma 4-31B и Qwen 3-VL-235B. Главные результаты:

Бенчмарк	DeepSeek TwVP	GPT-5.4	Gemini 3 Flash	Claude Sonnet 4.6
Pixmo-Count (exact match)	89.2%	76.6%	88.2%	68.7%
DS Fine-grained Counting	88.7%	n/a	n/a	n/a
MIHBench	85.3%	n/a	n/a	n/a
SpatialMQA	69.4%	n/a	n/a	n/a
DS Maze Navigation	66.9%	50.6%	49.4%	48.9%
DS Path Tracing	56.7%	46.5%	41.4%	n/a

Самое интересное в этой таблице — не то, где DeepSeek первый, а то, насколько провально все фронтир-модели работают на топологическом мышлении. Лабиринты и path tracing — задачи, где «увидеть» картинку не помогает; нужно реально шаг за шагом следовать по структуре, держа в голове, где ты уже был. Все основные модели берут около половины — то есть на уровне почти случайного угадывания на простых лабиринтах. DeepSeek с Visual Primitives поднимает планку на 17 процентных пунктов.

Авторы честно фиксируют ограничение: «все фронтир-модели плохо работают в топологическом reasoning, что показывает значительный room for improvement в visual reasoning». Это редкое признание из академической работы — обычно тон обратный.

Что это значит для индустрии

Reference Gap — не очень громкое название, но проблема, которую DeepSeek сформулировала и решила, выходит далеко за пределы лабиринтов и подсчёта медведей. Любой агент, который должен взаимодействовать с реальным миром через картинку — UI navigation в браузере, робот, читающий чертёж, медицинская модель, которая ищет аномалии на снимке — упирается в одну и ту же проблему. Модель «видит» картинку, но без явного механизма ссылок «дрейфует» при попытке рассуждать о конкретных объектах.

Если методология Thinking with Visual Primitives окажется переносимой — а DeepSeek опубликовала открытые веса и код — её начнут перенимать. Anthropic и OpenAI скорее всего быстро встроят похожий reference-механизм в свои тренировочные пайплайны. Это та редкая ситуация, когда работа из Китая публикуется как академический инсайт, и западные лабы немедленно её адаптируют — потому что польза слишком очевидна.

Параллельный, возможно более важный вывод: 7056-кратное сжатие визуальных токенов через CSA-механизм V4-Flash переписывает экономику multimodal inference. Если можно пропустить картинку через 81 KV-entry вместо 1100, у вас на порядок дешевле inference. Это сразу делает реалистичным широкое развёртывание visual agents в продакшене — там, где раньше cost-per-call закрывал большинство кейсов.

Что дальше

DeepSeek с этой работой делает несколько вещей одновременно. Сужает gap до фронтира на специфичной, но важной нише (visual reasoning). Демонстрирует, что MoE-архитектура V4-Flash — гибкая основа, к которой можно прикручивать специализированные capability без переучивания всей модели. Открывает методологию, которая, вероятно, появится в Gemini, GPT и Claude в следующих циклах. И ещё раз показывает, что китайские лаборатории больше не просто догоняют по бенчмаркам — они начинают предлагать архитектурные идеи, которые задают тренд.

Для разработчиков, которые строят visual agents или работают с multimodal RAG, главный практический вывод: модель из репозитория DeepSeek уже выложена, веса доступны, и её можно скачать и запустить. Сравните на своих сценариях с тем, что вы используете сейчас — особенно если ваши данные включают плотные сцены, схемы, чертежи или любые задачи, где «показать пальцем на конкретный объект» — критично для правильного ответа.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

DeepSeek учит модели «тыкать пальцем»: Thinking with Visual Primitives

Что произошло

Reference Gap: что это и почему он важен

Идея: координаты как «единицы мышления»

7056-кратное сжатие визуальных токенов

Cold-start data: как обучали

Цифры: где DeepSeek уделывает фронтир

Что это значит для индустрии

Что дальше

Похожие новости

DeepSeek V4-Flash вышел: 284B на Ascend и $0.14 за 1M токенов

24 000 фейковых аккаунтов и 16 млн запросов: как китайские лаборатории копировали Claude

Stanford AI Index 2026: 12 цифр, после которых всё выглядит иначе