«Claude-Opus»-файнтюны локалок чаще ломают модели, чем улучшают
LocalLLaMA обсуждает: популярные файнтюны Qwen 3.5 «в стиле Claude Opus 4.6» обычно деградируют в рассуждениях. Причина — в самом подходе к дистилляции.

Пользователь BuffMcBigHuge опубликовал на r/LocalLLaMA пост с жёстким тезисом: файнтюны локальных моделей «в стиле Claude Opus 4.6» — чаще всего деградация, а не улучшение. За сутки тема собрала 207 апвоутов и 100 комментариев. Сообщество в основном согласилось.
Что обсуждают
На Hugging Face последние недели плодятся модели с красноречивыми именами. Qwen3.5-27B-Claude-4.6-Opus-Uncensored-V2-Kullback-Leibler-GGUF от LuffyTheFox. Qwen3.5-9B-Claude-4.6-Opus-Uncensored-Distilled-GGUF от Jackrong. Qwen3.5-35B-A3B-Claude-4.6-Opus-Uncensored-V2. Все они — файнтюны Qwen 3.5 на цепочках рассуждений, собранных с Claude Opus 4.6, с упором на «бесцензурность».
Автор поста тестировал несколько таких моделей на задачах по кодингу, рассуждению и техническим вопросам — и везде получил результат хуже базового Qwen 3.5. Дистилляция, которая обещала «привнести качество Opus 4.6 в локальную модель», на практике убивает часть способностей исходной модели.
Почему дистилляция не работает как надо
Под дистилляцией обычно понимают тренировку «студента» (маленькой модели) на выходах «учителя» (большой). В простейшем варианте — SFT на парах «вопрос → ответ Opus 4.6». Проблема в том, что Qwen 3.5 9B физически не может иметь ту же внутреннюю репрезентацию, что Claude Opus 4.6. Когда маленькую модель заставляют воспроизводить стиль и длину рассуждений большой, она учится поверхностному паттерну — длинным цепочкам размышлений, определённым переходным фразам, структуре ответа. Но без настоящей способности делать выводы эти цепочки становятся ритуальными.
Что ломается:
- Рассуждение. Студент выдаёт длинный chain-of-thought, который выглядит как у Opus, но с ошибками на середине
- Кодинг. Инструкции в духе «сначала давайте разберём задачу» включаются даже там, где нужен короткий однострочник
- Следование промпту. Попытка подражать стилю Opus перекрывает изначальные инструкции пользователя
Второй фактор — «uncensored» компонент. Чтобы модель отвечала на запрещённые исходной alignment-разметкой темы, её пропускают через LoRA с датасетами, где отказы заменены на согласие. Это частично разрушает общее поведение модели — «не бояться сказать» коррелирует с «не бояться ошибиться».
Что из этого следует
Сообщество не отрицает, что идея соблазнительна. Один из комментариев на Reddit: «Я бы всё равно взял быструю Claude-distilled Qwen-модель над стоковой, если она даёт лучшие ответы в моих задачах». Но оговорка важная — «в моих задачах». На общих бенчмарках дистиллированные версии в среднем проигрывают оригиналу.
Исходная Qwen 3.5 9B — хорошо вылизанная модель, натренированная Alibaba на огромном кастомном датасете. Файнтюн поверх неё на 10 тыс. пар Opus-ответов не может переиграть миллиарды токенов оригинальной тренировки. Он может сместить распределение в узком классе задач — и вот тут дистиллированные версии иногда действительно выигрывают, например в творческом письме без цензуры.
Практический вывод для пользователей локальных моделей — проверять конкретный файнтюн на собственных задачах перед тем, как заменять им базовую версию. Имя с «Claude-4.6-Opus» в названии не гарантирует ничего, кроме маркетинга.
Что дальше
Волна «Claude-distilled» файнтюнов, скорее всего, продолжится — спрос на бесцензурные модели с качеством рассуждений фронтирного уровня огромен. Но честный разговор про то, что именно даёт такая дистилляция, пошёл в сообществе — и это важнее самих моделей. Локальная AI-экосистема взрослеет: от «чем больше параметров, тем лучше» через «чем свежее бейз, тем лучше» к «тестируй на своих задачах».
Ближайший качественный скачок для локалок придёт не от дистилляции закрытых моделей, а от новых открытых баз — Qwen 3.6, DeepSeek V4, GLM-5.1. Пока они не вышли, «Claude-Opus» в имени файнтюна — это ярлык, а не характеристика.
