arXiv устал от слопа: годовой бан за неотредактированные LLM-промпты в препринтах

arXiv ужесточил правила: за hallucinated-ссылки и забытые мета-комментарии LLM в препринтах — год бана и обязательный peer review до возврата. Что это значит для науки.

«Here is a 200 word summary; would you like me to make any changes?» — эта фраза, оставленная в теле научного препринта, теперь стоит автору годового бана на arXiv. О новой политике 15 мая 2026 года объявил Томас Дитерих, emeritus-профессор Oregon State и член модераторской команды arXiv. Препринт-сервер, через который проходит почти вся современная физика, астрономия и значительная часть computer science, наконец сформулировал, что делать с потоком AI-сгенерированного шлака, которым редакторы захлёбываются последний год.

Что именно изменилось

Сам моральный принцип остался прежним: автор подписывает свой текст и несёт ответственность за всё его содержание — неважно, написано оно человеком или сгенерировано LLM. Что изменилось — это санкции и порог их применения.

Если в работе найдено «incontrovertible evidence», что авторы не проверяли результат LLM-генерации, — все авторы получают годовой бан на загрузку препринтов. После бана любая новая работа от этих авторов принимается только если она уже прошла peer-review в reputable journal. Это, по сути, лишение учёного права публиковаться на arXiv напрямую на годы вперёд: даже когда бан истечёт, придётся ждать журнальной рецензии перед каждой подачей.

Что Дитерих считает «incontrovertible evidence»:

Hallucinated references — несуществующие статьи в списке литературы или с придуманными DOI
Мета-комментарии от LLM прямо в тексте: «вот резюме на 200 слов, хочешь правки?», «впишите сюда реальные числа из ваших экспериментов»
Plagiarized content, biased language, очевидно неверные факты, оставленные без проверки

«Если в препринте есть такие следы — мы не можем доверять ни одной строчке во всём документе», — резюмирует Дитерих в тред на X, который и стал официальным анонсом политики.

Почему именно arXiv

Чтобы понять масштаб, нужно вспомнить, чем для науки является arXiv. Это не journal и не peer-review площадка: туда выкладывают препринты — драфты до и после журнальной публикации. В физике высоких энергий, астрофизике, теоретической математике и большой части AI-research препринт на arXiv — это де-факто способ заявить приоритет. Журналы там вторичны: статью все читают в препринт-форме, спорят с ней в препринт-форме, цитируют её в препринт-форме. Журнальная публикация приходит через год-два — и уже мало кому интересна.

Бан на arXiv — это не «нельзя публиковаться», это «нельзя участвовать в актуальной научной дискуссии в реальном времени». Для аспиранта или postdoc-а это карьерная катастрофа: год без препринтов означает год невидимости. Для tenure track это плохо, но переживаемо. Для индустриальных исследователей в OpenAI, Google DeepMind или Anthropic — болезненно, потому что многие AI-команды публикуют tech-репорты именно на arXiv ради скорости.

Что увидели модераторы

Дитерих не приводит статистику в официальном тексте, но косвенные сигналы поступают давно. В прошлом году The Verge подробно разбирал, как AI-генерируемые научные работы становятся всё лучше — и одновременно всё опаснее: пройти их обычное чтение всё сложнее, при этом фактические ошибки и придуманные ссылки никуда не делись.

В категориях cs.CL (computational linguistics), cs.AI и cs.LG в последний год регулярно появлялись препринты с очевидными признаками LLM-генерации без проверки: списки литературы со ссылками на статьи, которых не существует; цитаты с придуманными авторами; куски текста, где LLM вставила инструкцию «здесь нужно вставить таблицу с реальными данными» — и автор отправил это, не вычитав. Иногда это студенческие работы низкого качества, иногда — попытки накачать резюме количеством публикаций. В любом случае препринт-сервер вынужден тратить ресурсы модераторов на отлов очевидного мусора, и это растущая проблема.

Важный нюанс: arXiv не банит за использование LLM как такового. Использовать ChatGPT, Claude или Gemini для редактирования, перевода, помощи с кодом или даже для черновика — никто не запрещает. Бан грозит только за неотредактированный результат. То есть за лень и неуважение к читателям, а не за инструмент.

Где это аукнется

Сильнее всего — в малобюджетной и периферийной науке. Авторы из стран без доступа к топовым ресурсам активно используют LLM как «дешёвого помощника по английскому», и у этой категории риск оставить случайные следы выше. Особенно жёстко санкции бьют по соавторам: даже если LLM-следы оставил один человек из десяти, бан получает вся команда. Никаких «индивидуальных приговоров» политика пока не предусматривает.

Есть и обратная сторона. Apel-процедура existing, авторы могут оспорить бан, и по словам 404 Media, процедура уже отрабатывается. На сторонний наблюдатель внимателен и ещё к одному риску — гейминг: если автор A хочет дискредитировать соавтора B, теоретически можно загрузить под их совместным именем работу с явными LLM-следами и подставить обоих. Что-то подобное в академии уже случалось с обычными попытками подделать препринты, и arXiv разрабатывает дополнительные проверки идентичности отправителя.

Глава arXiv в комментарии Ars Technica сказал, что окончательная формулировка политики ещё «в работе» — то есть детали могут уточнить, особенно в части коллективной ответственности соавторов. Но общая рамка — год бана + требование peer review — уже действует.

Что это меняет в индустрии

Самый интересный эффект — на корпоративные AI-лаборатории. OpenAI, Anthropic, Google DeepMind публикуют tech-репорты как препринты по той же дорожке, что и академики. Если кто-то из ресёрчеров OpenAI ленится вычитывать собственный текст и оставляет в нём след Claude или GPT-5 — теоретически лаборатория получает годовой бан, и о следующем системном анонсе придётся писать на собственном блоге. Это нанесёт по корпоративной академии серьёзный удар: блог-посты читают, но они не цитируются и не учитываются как «настоящая» публикация.

В коммерческих лабораториях процессы вычитки и так строже, чем в среднем университетском препринте. Но прецедент создан: научное community впервые официально признало, что бесконтрольная LLM-генерация в текстах — не «новый инструмент», а нарушение академических норм. Раньше арбитром этой границы выступали только редакторы журналов и неформальные нормы peer review. Теперь — главный препринт-сервер планеты, на который завязано полнауки.

Что дальше

Ждём первого публичного бана. Когда (а не если) такой случай произойдёт — это будет либо случайная попавшаяся под раздачу группа азиатских аспирантов, либо громкий кейс с известным именем. Первый сценарий вызовет обвинения в неравном применении правил, второй — обсуждение прозрачности процесса. arXiv готовится к обоим: апелляция работает, переписка с авторами публикуется в обезличенном виде, и моде-стандарты обновляются.

Долгосрочно — это первая ласточка. Журналы уже формулировали собственные AI-политики, но журналы — медленные, и их правила касаются финальных версий. arXiv стал первым, кто на этапе препринта сказал: «если вы не читаете то, что подаёте, — вам тут не место». Если эксперимент сработает, копирку с него снимут biorxiv, ssrn и другие препринт-серверы. К концу 2026-го у академии может сформироваться общая рамка: LLM можно — слоп нельзя.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

arXiv устал от слопа: годовой бан за неотредактированные LLM-промпты в препринтах

Что именно изменилось

Почему именно arXiv

Что увидели модераторы

Где это аукнется

Что это меняет в индустрии

Что дальше

Похожие новости

ArXiv уходит от Cornell — впервые за 25 лет

Чемодан-поводырь: робот, который сам везёт незрячего пассажира в аэропорту

AI пьёт миллиардами галлонов: как дата-центры тихо высушивают регионы