GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
open-sourcehereticgpt-ossabliterationLocalLLaMA

Heretic побеждает GPT-OSS: новый король снятия цензуры с open-source моделей

Инструмент Heretic от p-e-w представил метод Arbitrary-Rank Ablation и обошёл GPT-OSS по качеству декензурированных моделей. 10 900 звёзд на GitHub и 1 000+ моделей от сообщества.

Влад МакаровВлад Макаровпроверил и опубликовал
3 мин чтения

Пока большие компании спорят о том, насколько строгой должна быть цензура в моделях, сообщество open-source тихо решило вопрос по-своему. Heretic — инструмент для автоматического снятия «safety alignment» с языковых моделей — только что представил новый метод, который качественно превосходит всё, что было раньше.

Что произошло

Создатель Heretic, разработчик под ником p-e-w (Филипп Эмануэль Вайдманн), открыл pull request #211 с новым методом — Arbitrary-Rank Ablation (ARA). Сообщество LocalLLaMA встретило новость с энтузиазмом: Heretic наконец обошёл GPT-OSS, открытую модель OpenAI, по качеству декензурированных версий.

Heretic работает на основе «abliteration» — техники, которая удаляет из трансформерных моделей «направление отказа» (refusal direction) без дорогостоящего дообучения. Модель просто перестаёт отказываться отвечать на запросы, при этом сохраняя интеллект. Раньше для этого требовался опыт в архитектуре трансформеров — теперь достаточно одной команды в терминале.

Результаты впечатляют. На примере Gemma 3 12B версия Heretic показала ту же степень подавления отказов (3 из 100), что и ручные abliteration от экспертов, но при KL-дивергенции всего 0.16 против 0.45-1.04 у конкурентов. Меньшая дивергенция означает, что модель теряет меньше «ума» в процессе.

Почему это важно

За полгода существования Heretic набрал 10 900 звёзд на GitHub, а сообщество создало более 1 000 декензурированных моделей на Hugging Face. Инструмент поддерживает большинство dense-моделей, включая мультимодальные, и несколько архитектур MoE.

Новый метод ARA расширяет пространство поиска за пределы индексов отдельных слоёв — теперь refusal direction может быть дробным числом, а соседние направления интерполируются. В сочетании с оптимизатором Optuna это позволяет находить конфигурации, которые невозможно получить вручную.

Практический результат: любой, у кого есть GPU, может за 45 минут получить декензурированную модель уровня экспертных abliteration. Для многих пользователей, которым нужны локальные модели без ограничений для исследований, творчества или просто из принципа, это меняет расклад.

Что дальше

Heretic становится стандартом де-факто для снятия цензуры с open-source моделей. С появлением ARA разрыв между «цензурированным» и «свободным» вариантом модели сокращается до минимума потерь качества. Для open-source сообщества это ещё один аргумент в пользу того, что цензура на уровне весов модели — временное неудобство, а не фундаментальное ограничение.

Похожие новости

Листайте вниз

для загрузки следующей статьи