Google TPU 8t и 8i: один миллион чипов на кластер

Google представила восьмое поколение TPU: TPU 8t для тренировки, TPU 8i для инференса. До 1 млн чипов в кластере, нативный FP4, новая сеть Virgo и топология Boardfly.

Один кластер на миллион чипов. 22 апреля на Google Cloud Next компания представила восьмое поколение TPU — и в отличие от всех предыдущих поколений, это не один чип, а сразу два: TPU 8t для тренировки и TPU 8i для инференса и ризонинга. Google явно разделяет жизненный цикл AI-моделей на два несовместимых по нагрузке этапа — и строит под каждый отдельную инфраструктуру.

Что произошло

Прошлое поколение, Ironwood (TPU 7), было универсальным — один и тот же чип обслуживал и тренировку, и инференс. Восьмое поколение делает то, что давно напрашивалось: признаёт, что reasoning-модели с длинными chain-of-thought и классическое пре-обучение на триллионах токенов требуют принципиально разной архитектуры памяти, сети и вычислений. Вместо компромисса Google выпустила две специализированные системы на общей программной базе (JAX, Pathways, PyTorch, vLLM, XLA).

«Восьмое поколение TPU отвечает на вызов агентной эпохи — для неё нужна инфраструктура, которая справляется с длинными контекстами и сложной последовательной логикой.» — Diwakar Gupta, Distinguished Engineer, Google Cloud

Запустить обучение Genie 3 — модели мира от DeepMind, в которой миллионы агентов практикуются в симуляциях — Google обещает как раз на 8t; реальный user-facing сервинг (Gemini, Imagen, агентные продукты) поедет на 8i.

TPU 8t: тренировка миллионом чипов

TPU 8t унаследовал проверенную 3D-тор-топологию, но довёл размер суперпода до 9 600 чипов. Ключевые улучшения касаются трёх мест, где раньше случались затыки.

Первое — SparseCore, отдельный акселератор под embedding-операции. Именно на нерегулярных обращениях к памяти при all-gather на эмбеддингах старые чипы простаивали; SparseCore снимает эту зависимость с основного MXU, и матричные юниты перестают ждать.

Второе — нативный FP4. 4-битная арифметика с плавающей точкой удваивает пропускную способность MXU без заметной потери точности на крупных моделях. Это не столько про «больше FLOPS», сколько про меньшие объёмы перемещаемых данных — главный энергетический бюджет современного железа.

Третье — Virgo Network, новая датацентровая сеть. Вместо традиционной трёхуровневой топологии — плоская двухуровневая на высокорадиксных свитчах, с 4-кратным ростом DCN-полосы по сравнению с Ironwood. Один фабрик Virgo соединяет свыше 134 000 TPU 8t в единое поле с bi-sectional bandwidth до 47 Пбит/с. Через JAX и Pathways Google обещает масштабирование до более миллиона чипов в одном обучающем кластере с почти линейной эффективностью.

Сюда же добавили TPUDirect RDMA и TPUDirect Storage — прямой доступ из HBM чипа в сетевые карты и в Managed Lustre 10T без участия CPU хоста. В результате скорость доступа к хранилищу выросла десятикратно относительно Ironwood — это критично для мультимодальных датасетов на сотни петабайт.

TPU 8i: сервинг, ризонинг, миллионы агентов

TPU 8i решает другую задачу: держать много пользователей с длинным контекстом и быстро обрабатывать chain-of-thought у reasoning-моделей. Архитектура под это рассчитана иначе.

SRAM на чипе выросла в три раза — теперь KV-cache длинного контекста целиком влезает в кремний, а не упирается в HBM. На практике это убирает большую часть idle-time, который декодеры тратят на подгрузку кеша при генерации.

Collectives Acceleration Engine (CAE) — отдельный чиплет, который занимается только редукциями и синхронизациями, характерными для авторегрессивного декодинга и chain-of-thought. По измерениям Google, латентность коллективов упала в пять раз по сравнению с Ironwood. Когда у тебя тысячи агентов параллельно крутят reasoning, каждое такое сокращение напрямую конвертируется в пропускную способность.

Сетевая топология — Boardfly. Это отход от 3D-тора: чипы собраны в полностью связные платы по 4, восемь плат объединяются в группу, 36 групп замыкаются через оптические коммутаторы в под до 1 152 чипов. Сетевой диаметр сокращён с 16 хопов (как было бы в 3D-торе на 1024 чипа) до семи хопов — это минус 56% на all-to-all коммуникации, которые и являются узким местом MoE-моделей.

Сравнение поколений

Характеристика	TPU 7 (Ironwood)	TPU 8t	TPU 8i
Основная задача	универсальная	тренировка	инференс / ризонинг
Топология	3D torus	3D torus (9 600 чипов)	Boardfly (1 152 чипа)
HBM	—	216 ГБ	288 ГБ
HBM bandwidth	—	6 528 ГБ/с	8 601 ГБ/с
On-chip SRAM	128 МБ	128 МБ	384 МБ (×3)
Пиковая FP4	—	12,6 PFLOPs	10,1 PFLOPs
CPU-хост	x86	Arm Axion	Arm Axion
Price-performance vs TPU 7	1×	+2,7× (тренировка)	+1,8× (инференс)
Энергоэффективность	1×	×2	×2

Интересная деталь — Arm Axion в роли CPU-хоста. Google убирает x86 из своего стека для AI-нагрузок: Axion готовит данные и оркестрирует пайплайны, TPU считает. Это ещё один удар по Intel и AMD в датацентре, после ранее анонсированного Arm AGI CPU на 136 ядрах Neoverse V3.

Что это значит

Для Google — это возможность сказать клиентам: «вы платите за инференс меньше, а модель думает дольше». Price-performance на инференсе вырос на 80%, а при типичной нагрузке reasoning-моделей (длинный контекст, много chain-of-thought-токенов) прирост может быть ещё выше за счёт SRAM и CAE. Это прямой удар по экономике OpenAI и Anthropic, которые снимают инференс на Nvidia H100/H200 и платят за это весьма ощутимо.

Для рынка чипов — это очередной сигнал, что эпоха «один GPU на всё» заканчивается. Nvidia тоже идёт в специализацию (Blackwell B200 vs GB300), но Google раньше и глубже разносит тренировку и инференс по разным архитектурам — вплоть до разной топологии сети. Если реальные бенчмарки подтвердят заявленные 2,7× на тренировке, в ближайший год аренда H100 станет менее привлекательной для frontier-лабораторий, у которых есть Google Cloud-контракт.

Для Nvidia тревожный сигнал в другом: TPU 8t спокойно масштабируется до миллиона чипов в одном кластере — это больше, чем публично известные размеры кластеров xAI, Microsoft и Meta, вместе взятых. Там, где раньше «миллион GPU» было маркетинговой гиперболой, у Google это архитектурный план.

Что дальше

Интерес-форма открыта, но доступ — через Gemini Enterprise Agent Platform и контракты Google Cloud. Разработчикам, работающим через JAX/PyTorch, ничего переписывать не придётся: XLA абстрагирует Boardfly и CAE под капотом, Pallas даёт ручное управление кастомными ядрами там, где это оправдано.

Главный вопрос на ближайшие месяцы — скорость, с которой конкуренты смогут ответить. Anthropic уже объявила о сделке на 5 ГВт с Amazon (Trainium 3), но Trainium 3 — это второе поколение специализированного чипа, а не восьмое. Microsoft Maia 2 отстаёт ещё сильнее. OpenAI пока публично зависит от Nvidia и самопальной кремниевой работы в партнёрстве с Broadcom. У Google в этом смысле внезапно оказался самый готовый ответ на вопрос «как мы будем обслуживать агентную эпоху» — и ответ этот называется TPU 8.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Google TPU 8t и 8i: один миллион чипов на кластер

Что произошло

TPU 8t: тренировка миллионом чипов

TPU 8i: сервинг, ризонинг, миллионы агентов

Сравнение поколений

Что это значит

Что дальше

Похожие новости

TurboQuant: Google ужал KV-кэш в 5 раз и вышел на теоретический предел

Gemma 4 без MTP: как сообщество вернуло скорость, которую забрала Google

Gemini 3.1 Ultra: Google вернулся в гонку фронтирных моделей