Google TPU 8t и 8i: один миллион чипов на кластер
Google представила восьмое поколение TPU: TPU 8t для тренировки, TPU 8i для инференса. До 1 млн чипов в кластере, нативный FP4, новая сеть Virgo и топология Boardfly.

Один кластер на миллион чипов. 22 апреля на Google Cloud Next компания представила восьмое поколение TPU — и в отличие от всех предыдущих поколений, это не один чип, а сразу два: TPU 8t для тренировки и TPU 8i для инференса и ризонинга. Google явно разделяет жизненный цикл AI-моделей на два несовместимых по нагрузке этапа — и строит под каждый отдельную инфраструктуру.
Что произошло
Прошлое поколение, Ironwood (TPU 7), было универсальным — один и тот же чип обслуживал и тренировку, и инференс. Восьмое поколение делает то, что давно напрашивалось: признаёт, что reasoning-модели с длинными chain-of-thought и классическое пре-обучение на триллионах токенов требуют принципиально разной архитектуры памяти, сети и вычислений. Вместо компромисса Google выпустила две специализированные системы на общей программной базе (JAX, Pathways, PyTorch, vLLM, XLA).
«Восьмое поколение TPU отвечает на вызов агентной эпохи — для неё нужна инфраструктура, которая справляется с длинными контекстами и сложной последовательной логикой.» — Diwakar Gupta, Distinguished Engineer, Google Cloud
Запустить обучение Genie 3 — модели мира от DeepMind, в которой миллионы агентов практикуются в симуляциях — Google обещает как раз на 8t; реальный user-facing сервинг (Gemini, Imagen, агентные продукты) поедет на 8i.
TPU 8t: тренировка миллионом чипов
TPU 8t унаследовал проверенную 3D-тор-топологию, но довёл размер суперпода до 9 600 чипов. Ключевые улучшения касаются трёх мест, где раньше случались затыки.
Первое — SparseCore, отдельный акселератор под embedding-операции. Именно на нерегулярных обращениях к памяти при all-gather на эмбеддингах старые чипы простаивали; SparseCore снимает эту зависимость с основного MXU, и матричные юниты перестают ждать.
Второе — нативный FP4. 4-битная арифметика с плавающей точкой удваивает пропускную способность MXU без заметной потери точности на крупных моделях. Это не столько про «больше FLOPS», сколько про меньшие объёмы перемещаемых данных — главный энергетический бюджет современного железа.
Третье — Virgo Network, новая датацентровая сеть. Вместо традиционной трёхуровневой топологии — плоская двухуровневая на высокорадиксных свитчах, с 4-кратным ростом DCN-полосы по сравнению с Ironwood. Один фабрик Virgo соединяет свыше 134 000 TPU 8t в единое поле с bi-sectional bandwidth до 47 Пбит/с. Через JAX и Pathways Google обещает масштабирование до более миллиона чипов в одном обучающем кластере с почти линейной эффективностью.
Сюда же добавили TPUDirect RDMA и TPUDirect Storage — прямой доступ из HBM чипа в сетевые карты и в Managed Lustre 10T без участия CPU хоста. В результате скорость доступа к хранилищу выросла десятикратно относительно Ironwood — это критично для мультимодальных датасетов на сотни петабайт.
TPU 8i: сервинг, ризонинг, миллионы агентов
TPU 8i решает другую задачу: держать много пользователей с длинным контекстом и быстро обрабатывать chain-of-thought у reasoning-моделей. Архитектура под это рассчитана иначе.
SRAM на чипе выросла в три раза — теперь KV-cache длинного контекста целиком влезает в кремний, а не упирается в HBM. На практике это убирает большую часть idle-time, который декодеры тратят на подгрузку кеша при генерации.
Collectives Acceleration Engine (CAE) — отдельный чиплет, который занимается только редукциями и синхронизациями, характерными для авторегрессивного декодинга и chain-of-thought. По измерениям Google, латентность коллективов упала в пять раз по сравнению с Ironwood. Когда у тебя тысячи агентов параллельно крутят reasoning, каждое такое сокращение напрямую конвертируется в пропускную способность.
Сетевая топология — Boardfly. Это отход от 3D-тора: чипы собраны в полностью связные платы по 4, восемь плат объединяются в группу, 36 групп замыкаются через оптические коммутаторы в под до 1 152 чипов. Сетевой диаметр сокращён с 16 хопов (как было бы в 3D-торе на 1024 чипа) до семи хопов — это минус 56% на all-to-all коммуникации, которые и являются узким местом MoE-моделей.
Сравнение поколений
| Характеристика | TPU 7 (Ironwood) | TPU 8t | TPU 8i |
|---|---|---|---|
| Основная задача | универсальная | тренировка | инференс / ризонинг |
| Топология | 3D torus | 3D torus (9 600 чипов) | Boardfly (1 152 чипа) |
| HBM | — | 216 ГБ | 288 ГБ |
| HBM bandwidth | — | 6 528 ГБ/с | 8 601 ГБ/с |
| On-chip SRAM | 128 МБ | 128 МБ | 384 МБ (×3) |
| Пиковая FP4 | — | 12,6 PFLOPs | 10,1 PFLOPs |
| CPU-хост | x86 | Arm Axion | Arm Axion |
| Price-performance vs TPU 7 | 1× | +2,7× (тренировка) | +1,8× (инференс) |
| Энергоэффективность | 1× | ×2 | ×2 |
Интересная деталь — Arm Axion в роли CPU-хоста. Google убирает x86 из своего стека для AI-нагрузок: Axion готовит данные и оркестрирует пайплайны, TPU считает. Это ещё один удар по Intel и AMD в датацентре, после ранее анонсированного Arm AGI CPU на 136 ядрах Neoverse V3.
Что это значит
Для Google — это возможность сказать клиентам: «вы платите за инференс меньше, а модель думает дольше». Price-performance на инференсе вырос на 80%, а при типичной нагрузке reasoning-моделей (длинный контекст, много chain-of-thought-токенов) прирост может быть ещё выше за счёт SRAM и CAE. Это прямой удар по экономике OpenAI и Anthropic, которые снимают инференс на Nvidia H100/H200 и платят за это весьма ощутимо.
Для рынка чипов — это очередной сигнал, что эпоха «один GPU на всё» заканчивается. Nvidia тоже идёт в специализацию (Blackwell B200 vs GB300), но Google раньше и глубже разносит тренировку и инференс по разным архитектурам — вплоть до разной топологии сети. Если реальные бенчмарки подтвердят заявленные 2,7× на тренировке, в ближайший год аренда H100 станет менее привлекательной для frontier-лабораторий, у которых есть Google Cloud-контракт.
Для Nvidia тревожный сигнал в другом: TPU 8t спокойно масштабируется до миллиона чипов в одном кластере — это больше, чем публично известные размеры кластеров xAI, Microsoft и Meta, вместе взятых. Там, где раньше «миллион GPU» было маркетинговой гиперболой, у Google это архитектурный план.
Что дальше
Интерес-форма открыта, но доступ — через Gemini Enterprise Agent Platform и контракты Google Cloud. Разработчикам, работающим через JAX/PyTorch, ничего переписывать не придётся: XLA абстрагирует Boardfly и CAE под капотом, Pallas даёт ручное управление кастомными ядрами там, где это оправдано.
Главный вопрос на ближайшие месяцы — скорость, с которой конкуренты смогут ответить. Anthropic уже объявила о сделке на 5 ГВт с Amazon (Trainium 3), но Trainium 3 — это второе поколение специализированного чипа, а не восьмое. Microsoft Maia 2 отстаёт ещё сильнее. OpenAI пока публично зависит от Nvidia и самопальной кремниевой работы в партнёрстве с Broadcom. У Google в этом смысле внезапно оказался самый готовый ответ на вопрос «как мы будем обслуживать агентную эпоху» — и ответ этот называется TPU 8.


