Почему LLM «придумывают» факты: китайские учёные нашли ответ в механизме внимания

Исследование arXiv:2602.18145 раскрывает механизм галлюцинаций в LLM: токены-галлюцинации связаны с высокочастотной энергией внимания — нестабильным, фрагментированным заземлением.

Год назад ответ на вопрос «почему языковые модели галлюцинируют?» был примерно таким: «они оптимизируются под правдоподобность, а не под правдивость». Верно, но бесполезно — это не объясняет, что именно происходит внутри модели в момент, когда она генерирует несуществующую ссылку или перепутанную дату. 20 февраля 2026 года группа китайских исследователей опубликовала на arXiv работу, которая даёт более точный ответ — и сразу показывает, как этим можно воспользоваться.

Чего не хватало предыдущим подходам

Попытки обнаружить галлюцинацию «изнутри» модели велись давно. Одно направление смотрело на внутренние представления (скрытые состояния), другое — на механизм внимания (attention). Интуиция за вторым подходом понятна: attention показывает, на какие части контекста модель «смотрит», когда генерирует следующий токен. Если модель плохо заземляет свой вывод в реальном тексте документа, attention должен это выдавать.

Проблема в том, что большинство методов использовало очень грубые характеристики attention — например, просто усредняло значения по слоям или позициям. Такая «средняя температура по больнице» плохо улавливала тонкие нестабильности, которые возникают именно при галлюцинациях.

Сигнал, который все пропустили

Исследователи из нескольких китайских университетов под руководством команды из King's College London предложили посмотреть на attention через призму теории сигналов. Идея простая: если распределение внимания по токенам контекста рассматривать как дискретный сигнал во времени генерации, то у него есть частотные характеристики. Плавный сигнал означает стабильное, последовательное внимание к источнику. Дёрганый, с резкими скачками — нестабильное, «фрагментированное» заземление.

Авторы применили дискретное преобразование Фурье к attention-распределениям и извлекли высокочастотные компоненты — те самые «скачки». Их главный вывод: токены-галлюцинации систематически ассоциированы с высокой энергией в высокочастотном диапазоне. Когда модель «выдумывает», её attention не просто смотрит «не туда» — он хаотично мечется, не закрепившись ни на одном участке контекста.

Это принципиально новое понимание механизма: проблема не только в том, на что смотрит модель, но и в том, как стабильно она это делает.

Лёгкий детектор — неожиданно хорошие результаты

На основе этого инсайта авторы построили детектор галлюцинаций. Он лёгкий по вычислительным меркам — использует только высокочастотные признаки attention без дополнительных вызовов модели и без внешней верификации. Это важно: многие существующие методы требуют прогнать один и тот же запрос несколько раз или обратиться к поисковому индексу, что значительно дороже.

Тестирование прошло на двух бенчмарках — RAGTruth и HalluRAG, которые специально созданы для оценки галлюцинаций в контекстно-зависимой генерации (то есть когда модель должна опираться на переданный документ). Результаты детектора оказались лучше, чем у всех трёх классов предыдущих методов: верификационных, основанных на внутренних представлениях и основанных на attention. Причём это воспроизводилось на разных моделях и типах задач.

Что это меняет на практике

Сейчас большинство RAG-систем (retrieval-augmented generation) — то, что стоит в основе корпоративных AI-ассистентов, юридических и медицинских инструментов — борются с галлюцинациями в основном через постфильтрацию или повторные запросы. Оба подхода медленные и дорогие в масштабе.

Детектор на основе высокочастотного внимания потенциально можно встроить прямо в инференс-пайплайн без существенных накладных расходов. Модель генерирует ответ, параллельно сигнал внимания анализируется на частотные паттерны — и если детектируется нестабильность, система может запросить верификацию или пометить фрагмент как ненадёжный именно там, где галлюцинация вероятна, а не по всему ответу целиком.

Для разработчиков это означает более точечный контроль качества. Для пользователей — потенциально меньше случаев, когда AI уверенно называет несуществующую дату суда или ссылается на статью, которой не существует.

Ограничения, о которых авторы честно говорят

Работа сфокусирована на контекстных галлюцинациях — когда модель отклоняется от переданного ей документа. Это важный, но не единственный вид. Галлюцинации из параметрической памяти (когда модель просто «помнит неправильно» без какого-либо документа в контексте) изучены значительно хуже и данным методом не покрываются.

Кроме того, детектор протестирован на относительно стандартных бенчмарках. Насколько он переносится на мультиязычные задачи, очень длинные контексты или специфические домены вроде программного кода — предстоит выяснить.

Выводы

Исследование arXiv:2602.18145 не «решает» проблему галлюцинаций — это было бы слишком громким заявлением. Но оно делает то, что для науки важнее: даёт внятный механистический ответ на вопрос «почему» и из него сразу выводит практичный инструмент. В ситуации, когда LLM интегрируются в критически важные системы — юридические, медицинские, финансовые — любое улучшение надёжности имеет прямую практическую ценность.

Reddit-сообщество r/singularity оценило работу в 1312 апвотов: сигнал редкий для академической статьи, вышедшей всего неделю назад. Кажется, люди соскучились по исследованиям, которые не просто констатируют проблему, а объясняют её механизм.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Почему LLM «придумывают» факты: китайские учёные нашли ответ в механизме внимания

Чего не хватало предыдущим подходам

Сигнал, который все пропустили

Лёгкий детектор — неожиданно хорошие результаты

Что это меняет на практике

Ограничения, о которых авторы честно говорят

Выводы

Похожие новости

Qwen потерял своего лидера: Junyang Lin ушёл из Alibaba

24 000 фейковых аккаунтов и 16 млн запросов: как китайские лаборатории копировали Claude

Как r/LocalLLaMA из нишевой тусовки превратилась в барометр AI-индустрии