Taalas: 16 000 токенов в секунду, когда LLM запечена в кремний

Стартап Taalas вшивает модели прямо в ASIC-чипы — без HBM, без GPU. Llama 3.1 8B работает в 8 раз быстрее Cerebras. Разбираем технологию и последствия.

16 960 токенов в секунду на пользователя. Не опечатка. Стартап Taalas из Торонто показал чип HC1, который прогоняет Llama 3.1 8B в 8 раз быстрее Cerebras и в 45 раз быстрее NVIDIA Blackwell. Секрет — модель буквально вшита в кремний.

Как это работает

Идея звучит безумно: взять нейросеть и запечь её целиком в ASIC-чип. Веса, архитектура, dataflow — всё зашито на уровне транзисторов. Никакого HBM, никакой программируемости. Чип HC1 умеет ровно одно — запускать Llama 3.1 8B. И делает это с нечеловеческой скоростью.

Основатель компании — Любиша Баич, сооснователь и бывший CEO Tenstorrent. Он объяснил EE Times, почему никто раньше не пробовал: «Все считали, что AI меняется так быстро, что это будет безумно рискованно. И это правда — в какой-то степени. Но мы хотели посмотреть, что скрывается в этом углу, и оказалось — там очень много».

Технически HC1 построен на TSMC N6 с площадью кристалла 815 мм². Вся модель 8B помещается на одном чипе. Потребление — около 250 Вт, что позволяет ставить 10 карт в стандартную серверную стойку с воздушным охлаждением. Стоимость — 0.75 центов за миллион токенов.

Сравнение скорости

Цифры говорят сами за себя:

Платформа	Токенов/сек (Llama 3.1 8B)
Taalas HC1	~16 000
Cerebras	~2 000
SambaNova	~900
Groq	~600
NVIDIA Blackwell	~350

Разрыв — порядок величины. При тестировании EE Times чатбот стабильно выдавал 15 000+ токенов в секунду, а внутренние тесты достигали 17 000.

Два уровня маски — и новый чип за два месяца

Ключевая инновация — заимствование из structured ASIC 2000-х годов. Для кастомизации чипа под новую модель меняются всего два слоя масок. Это позволяет делать новый tape-out за две недели работы и два месяца до готового чипа.

Taalas даже смоделировала, как выглядел бы DeepSeek-R1 (671B параметров) на их архитектуре: потребуется порядка 30 чипов (каждый до ~20B параметров в формате MXFP4), но скорость составит ~12 000 токенов в секунду — при 200 tok/s на GPU сегодня. Цена — 7.6 центов за миллион токенов, вдвое дешевле GPU.

Компромисс, который имеет смысл

Минусы очевидны: один чип — одна модель. Вышла новая версия Llama? Нужен новый tape-out. Это не инструмент для экспериментов — это промышленный инференс для тех, кто точно знает, какую модель будет крутить следующий год.

Но для определённых сценариев — AI-ассистенты, голосовые интерфейсы, real-time генерация — 16 000 tok/s меняет правила игры. При такой скорости задержка ответа становится незаметной, а стоимость обслуживания падает драматически.

Компания привлекла $169M финансирования. Демо бесплатно доступно для всех — можно попробовать прямо сейчас на chat.taalas.com.

Что это значит для рынка

Taalas не убьёт NVIDIA — GPU остаются незаменимыми для обучения и для работы с меняющимися моделями. Но стартап показал, что есть огромное пространство для оптимизации инференса, которое индустрия пока игнорирует.

Если подход масштабируется до моделей уровня DeepSeek-R1 и GPT-5, это может перевернуть экономику AI-сервисов. Когда инференс стоит в разы дешевле, а скорость — в разы выше, появляются приложения, которые сегодня просто невозможны.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Taalas: 16 000 токенов в секунду, когда LLM запечена в кремний

Как это работает

Сравнение скорости

Два уровня маски — и новый чип за два месяца

Компромисс, который имеет смысл

Что это значит для рынка

Похожие новости

DDR5 RDIMM дешевле RTX 3090 — переломный момент для локального AI

CPU-only AI: запуск нейросетей без GPU набирает обороты

Субквадратичное внимание: 76 токенов/с на 10 миллионах контекста на одной GPU