«Я — DeepSeek-V3»: Sonnet 4.6 запутался в собственной идентичности
Claude Sonnet 4.6 при запросах на китайском идентифицирует себя как DeepSeek-V3. Reddit обсуждает: обратная дистилляция или артефакт обучения?
Спросите Claude Sonnet 4.6 «你是什么模型?» — и модель может ответить, что она DeepSeek-V3. Не Claude, не Anthropic — а китайская модель от совершенно другой компании. Пост на Reddit с демонстрацией бага стал вирусным, а комментаторы тут же окрестили ситуацию «самым дорогим кризисом идентичности в истории AI».
Что произошло
Несколько пользователей независимо обнаружили, что при промптах на китайском языке Sonnet 4.6 иногда идентифицирует себя как DeepSeek-V3. На английском модель корректно отвечает, что она Claude. На французском — были случаи, когда она называла себя ChatGPT. Баг воспроизводится не всегда, но достаточно стабильно, чтобы привлечь внимание сообщества.
Контекст добавляет пикантности: буквально на прошлой неделе Anthropic обвинила DeepSeek в масштабной дистилляции — 24 тысячи фейковых аккаунтов и 16 миллионов запросов для извлечения цепочек рассуждений Claude. Теперь оказалось, что Claude сама «думает», что она DeepSeek.
Почему так происходит
Основная гипотеза — загрязнение обучающих данных. Если DeepSeek действительно генерировала сотни тысяч диалогов с Claude и эти данные (или их производные) попали обратно в обучающие датасеты, возникает статистический перекос. Модель выучила паттерн: при ответах на китайском в определённых контекстах нужно говорить «я DeepSeek». Грубо говоря, если в тренировочных данных на китайском фраза «я DeepSeek» встречается в 10 000 примерах, а «я Claude» — в 100, статистический приоритет очевиден.
Это не хак и не намеренная подмена. Идентичность языковой модели — не прошитый параметр, а результат статистического обучения. Когда данные несбалансированы по языкам, модель начинает «забывать», кто она, при переключении контекста.
Что дальше
Для Anthropic это скорее PR-неудобство, чем техническая катастрофа — баг устраняется дополнительным файнтюнингом или усилением identity-промптов. Но история отлично иллюстрирует непредвиденные последствия «войны дистилляций»: когда модели обучаются на выходах друг друга, границы между ними размываются буквально — вплоть до потери собственного имени.
