GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
talkieopen-sourceresearchvintage-llmduvenaudradford

Talkie-1930: 13B-модель, которая ничего не знает о Второй мировой

Исследователи натренировали 13B-LLM только на текстах до 1931 года. Talkie не знает про самолёты, компьютеры и WWII — и предсказывает мировую войну в 1936-м.

Влад МакаровВлад Макаровпроверил и опубликовал
7 мин чтения
Talkie-1930: 13B-модель, которая ничего не знает о Второй мировой

Представьте себе LLM, которая искренне считает, что говорящие фильмы — переоценённое явление. «Они никогда не заменят немое кино, но могут его дополнить, и, возможно, в будущем их будут показывать в одном кинотеатре одновременно». Это ответ Talkie — модели на 13 миллиардов параметров, которая обучалась на 260 миллиардах токенов английского текста, опубликованного до конца 1930 года. Никаких книг про Вторую мировую. Никакого холодного интернета. Никакого Python.

Что произошло

27 апреля 2026 года Дэвид Дюверно (профессор University of Toronto), Алек Радфорд и Ник Левин выложили в открытый доступ Talkie — самую большую «винтажную» языковую модель в открытом доступе. Кат-офф — 31 декабря 1930 года. Корпус собрали из оцифрованных книг, газет, журналов, патентов и юридических текстов, которые на этот момент уже перешли в общественное достояние согласно американскому законодательству.

«Talkie — это новая открытая историческая LLM. Мы натренировали и зафайнтюнили модель на 13B параметров на новом корпусе данных только до 1930 года». — Дэвид Дюверно, анонс в X

Чтобы измерить эффект «исторической чистоты», исследователи параллельно обучили близнеца — Talkie-Web-13B — на современном веб-корпусе FineWeb. Оба близнеца имеют одинаковую архитектуру и одинаковый размер. Это даёт чистый научный эксперимент: что меняется в поведении модели, если её знание мира заморозить на конкретной дате.

Как сделали кат-офф 1930 года

Самая сложная часть проекта — это не обучение, а курация данных. Авторы прогнали все документы через классификаторы анахронизмов на уровне n-грамм, отрезая всё, что могло содержать упоминания событий после 1930 года. Метод не идеален: исследователи признают «temporal leakage» — модель иногда знает, что Рузвельт был президентом с 1933 по 1937, потому что эта информация просачивалась через введения, сноски и плохую метаданность.

OCR — отдельная боль. Многие тексты эпохи существуют только в виде сканов, и стандартные системы распознавания дают качество данных примерно на 30% хуже, чем у человеческой транскрипции. Регулярки и постпроцессинг подняли это до 70%, но оставшийся разрыв — главный фокус будущих улучшений. Команда уже работает над собственным «винтажным» OCR, обученным на шрифтах и вёрстке начала XX века.

С инструкционным тюнингом тоже пришлось импровизировать. Никаких современных датасетов чатов или QA — это нарушило бы дух эксперимента. Вместо этого пары «инструкция-ответ» собирали из этикетных пособий, энциклопедий и других структурированных исторических источников, потом доучивали на синтетических промптах. Качество диалогов оценивал Claude Sonnet 4.6 (вот ирония — современный судья над прошлым) и поднял рейтинг с 2.0 до 3.4 из 5.

Технические детали:

  • Параметры: 13 млрд
  • Корпус: 260 млрд токенов английского текста до 31 декабря 1930
  • Близнец для сравнения: Talkie-Web-13B на FineWeb (современный веб)
  • Архитектура: трансформер, аналогично современным LLM
  • Лицензия: open-weight, доступна на Hugging Face

Что Talkie умеет — и не умеет

Главное открытие: модель «не знает», что она ограничена 1930 годом. У неё нет системного промпта про кат-офф. Дюверно объяснил, что современные LLM «недостаточно умны, чтобы провести самоинтроспекцию и понять, где их граница знаний». Talkie ведёт себя как образованный человек 1930 года, не подозревающий о том, что он образованный человек 1930 года.

Это даёт два класса любопытных результатов. Первый — экстраполяция в будущее. В тестах одного из пользователей Talkie предсказал, что вторая мировая война начнётся в 1936-м (промахнулся на три года), что «летающие машины» войдут в повседневное использование к 2000-му (тут попал точно), и что к 1999 году «солнце перестанет светить» — вероятно, отражение апокалиптических настроений рубежа эпох. Про говорящие фильмы (это, кстати, и есть значение слова talkie на жаргоне 1920-х) модель сказала, что они «интересны главным образом как новинка».

Второй класс результатов — генерализация на современные задачи. Авторы прогнали Talkie через HumanEval — стандартный бенчмарк для генерации кода. Модель смогла сгенерировать только простейшие однострочные программы, и то после демонстрации образцов в контексте. Это важный результат сам по себе: даже большая LLM, у которой в обучении не было кода вообще, не может «изобрести» программирование. Знание языка не равно знанию инструмента.

Зато Talkie неплохо справляется с шифрами и логическими задачами — материал, который часто обсуждался в научной литературе начала XX века. И демонстрирует «правильную» удивлённость: исследователи прогнали через модель почти 5000 описаний событий из колонки «On This Day» в New York Times и измеряли, насколько модель «удивляется» каждому событию. После 1930 года уровень удивления резко скакнул вверх. Это валидирует, что кат-офф работает.

ЗадачаTalkie-1930-13BTalkie-Web-13B
Знание о событиях после 1930почти нулевое (с протечками)актуальное
Программирование (HumanEval)очень слабосильно
Логика и шифрыприличноприлично
Контаминация бенчмарковустранена by designвозможна
Языковая модель XX веканативночерез стилизацию

Зачем это нужно

На первый взгляд это академическая забава. На второй — несколько серьёзных применений.

Главное — чистый эксперимент по контаминации бенчмарков. Современные LLM, обученные на вебе, видели почти все стандартные тесты, потому что эти тесты в виде упоминаний и обсуждений просочились в их обучающие данные. Сравнение Talkie-1930 и Talkie-Web на одинаковой архитектуре и одинаковом размере параметров позволяет аккуратно измерить, сколько производительности модели — это реальная генерализация, а сколько — память о том, что было в датасете.

Второе — это инструмент для цифровой истории и культурологии. Можно «спросить» начало XX века о его представлениях, моделях мира, языковых паттернах. Не как у Википедии, а как у энциклопедии того времени, которая ещё не знает, что эпоха закончится мировой войной.

Третье — вопрос, который задал Демис Хассабис, глава Google DeepMind: могла бы модель, обученная до 1911 года, независимо открыть общую теорию относительности? Это формулировка проблемы научного открытия в очень практичной форме. Если можно постулировать, что вся информация для теории относительности уже была в литературе 1911 года, то любой пробел между «моделью» и «Эйнштейном» — это пробел в способности к рассуждению, а не в данных.

Что дальше

Команда планирует масштабировать «винтажный» подход до объёмов, сопоставимых с GPT-3.5 — это означает обучение на корпусе порядка триллиона токенов, что потребует расширения за пределы английского и включения большего числа жанров и языков. Параллельно — собственный OCR, обученный на исторических текстах.

Остаётся открытым самый интересный вопрос: можно ли через модель, замороженную в 1930-м, сгенерировать гипотезу, которую человечество подтвердило в 1965-м? Если да — это будет первым прямым свидетельством того, что современные LLM умеют делать настоящие открытия, а не только пересказывать существующие. Если нет — это придётся объяснять, и объяснение может оказаться довольно неудобным для всей нынешней парадигмы фронтирных моделей.

Пока Talkie уверенно сообщает, что говорящие фильмы — переоценены. Через сто лет, может быть, модель 2026 года тоже скажет что-нибудь столь же прекрасное про большие языковые модели.

Похожие новости

Листайте вниз

для загрузки следующей статьи