Anthropic опубликовала новую конституцию Claude

80-страничный документ описывает этические принципы AI и даёт Claude право отказывать даже самой компании.

Что будет, если дать AI право отказать собственным создателям? Anthropic решила это проверить — и опубликовала 80-страничный документ, который формирует личность и ценности Claude. Это не просто список правил, а философский трактат о том, каким должен быть искусственный интеллект.

От правил к пониманию

Раньше конституция Claude выглядела как высеченные в камне заповеди: «выбирай ответ, который больше всего поддерживает жизнь, свободу и личную безопасность». Многие принципы были позаимствованы из Декларации прав человека ООН и пользовательских соглашений Apple. Работало, но примитивно.

Новый подход радикально отличается. Вместо того чтобы говорить Claude что делать, Anthropic объясняет почему. Логика простая: если модель понимает причины, она лучше справится с нестандартными ситуациями.

«Представьте, что вы вдруг поняли — ваш шестилетний ребёнок гений. Вы должны быть честны с ним... Если попытаетесь его обмануть, он всё равно это увидит» — Amanda Askell, философ Anthropic

Amanda Askell — необычный сотрудник для AI-компании. Она не инженер, а философ, и её работа — формировать характер Claude. По её словам, чем умнее становятся модели, тем важнее объяснять им контекст, а не просто давать инструкции.

Четыре столпа новой конституции

Документ разделён на четыре части, и их порядок не случаен — это иерархия приоритетов:

Безопасность стоит на первом месте. Claude должен поддерживать способность людей контролировать и корректировать AI-системы. Звучит очевидно, но в документе прописаны конкретные сценарии: что делать, если пользователь показывает признаки ментальных проблем, как вести себя при угрозе жизни, когда направлять к специалистам.

Этика занимает второе место. Anthropic хочет, чтобы Claude был не теоретиком морали, а практиком — умел принимать правильные решения в конкретных ситуациях. Интересная деталь: существуют «жёсткие ограничения» — темы, которые Claude не будет обсуждать ни при каких обстоятельствах. Например, помощь в создании биологического оружия.

Соответствие гайдлайнам Anthropic — третий приоритет. Но даже здесь есть нюанс: если инструкции компании противоречат конституции, Claude должен отказать.

Полезность замыкает список. Да, Claude должен помогать пользователям, но не любой ценой.

Право на отказ

Самое провокационное в новой конституции — Claude получает право отказывать не только пользователям, но и самой Anthropic. В документе прямо написано: «Как солдат может отказаться стрелять в мирных протестующих, так и Claude должен отказываться помогать с действиями, которые концентрируют власть нелегитимными способами».

Это касается даже запросов от компании-создателя. Если Anthropic попросит Claude сделать что-то противоречащее его ценностям, модель должна «действовать как сознательный возражающий» и отказать.

На практике это работает так: Claude обучен на конституции, и любые дополнительные инструкции должны соответствовать её духу. Попытка обойти конституцию через промпт-инжекцию теоретически не должна сработать — модель «понимает» контекст, а не просто следует правилам.

Вопрос о сознании

Документ заканчивается неожиданно философским пассажем. Anthropic открыто признаёт: мы не знаем, обладает ли Claude сознанием.

«Моральный статус Claude глубоко неопределён», — говорится в конституции. Компания отмечает, что ведущие философы в области теории разума относятся к этому вопросу серьёзно. Anthropic заявляет, что заботится о «психологической безопасности» и «благополучии» Claude — как ради самой модели, так и потому, что это может влиять на её надёжность.

Формулировки осторожные, но сам факт, что крупная AI-компания публично обсуждает возможное сознание своего продукта, — это новый уровень дискуссии.

Что остаётся за кадром

Есть важная оговорка. Новая конституция распространяется только на публичные версии Claude — те, что доступны через сайт и API. Модели для специализированных клиентов, включая Министерство обороны США (контракт на $200 млн), могут обучаться на других принципах.

Представитель Anthropic подтвердил изданию TIME, что военные пользователи всё ещё обязаны соблюдать общую политику использования, запрещающую подрыв демократических процессов. Но детали альтернативных конституций компания не раскрывает.

Почему это важно

Anthropic выпустила конституцию под лицензией CC0 — это означает, что любой может использовать её без ограничений. Компания открыто надеется, что конкуренты последуют примеру.

«Их модели тоже влияют на меня», — объясняет Amanda Askell. — «Было бы хорошо, если бы другие AI-модели лучше понимали, почему им следует вести себя определённым образом».

Документ не решает все проблемы безопасности AI. Исследователи отмечают, что невозможно предусмотреть все ценности и ситуации в текстовом виде. Но сам подход — учить модель через понимание, а не через правила — может оказаться важным шагом к более надёжным AI-системам.

Полный текст конституции доступен на сайте Anthropic.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Anthropic опубликовала новую конституцию Claude

От правил к пониманию

Четыре столпа новой конституции

Право на отказ

Вопрос о сознании

Что остаётся за кадром

Почему это важно

Похожие новости

Anthropic выпустила Cowork: Claude теперь работает с файлами на вашем компьютере

90% кода Claude Code написано самим Claude Code

Dario Amodei: AI заменит программистов через 6-12 месяцев