Taalas: 16 000 токенов в секунду, когда LLM запечена в кремний
Стартап Taalas вшивает модели прямо в ASIC-чипы — без HBM, без GPU. Llama 3.1 8B работает в 8 раз быстрее Cerebras. Разбираем технологию и последствия.

16 960 токенов в секунду на пользователя. Не опечатка. Стартап Taalas из Торонто показал чип HC1, который прогоняет Llama 3.1 8B в 8 раз быстрее Cerebras и в 45 раз быстрее NVIDIA Blackwell. Секрет — модель буквально вшита в кремний.
Как это работает
Идея звучит безумно: взять нейросеть и запечь её целиком в ASIC-чип. Веса, архитектура, dataflow — всё зашито на уровне транзисторов. Никакого HBM, никакой программируемости. Чип HC1 умеет ровно одно — запускать Llama 3.1 8B. И делает это с нечеловеческой скоростью.
Основатель компании — Любиша Баич, сооснователь и бывший CEO Tenstorrent. Он объяснил EE Times, почему никто раньше не пробовал: «Все считали, что AI меняется так быстро, что это будет безумно рискованно. И это правда — в какой-то степени. Но мы хотели посмотреть, что скрывается в этом углу, и оказалось — там очень много».
Технически HC1 построен на TSMC N6 с площадью кристалла 815 мм². Вся модель 8B помещается на одном чипе. Потребление — около 250 Вт, что позволяет ставить 10 карт в стандартную серверную стойку с воздушным охлаждением. Стоимость — 0.75 центов за миллион токенов.
Сравнение скорости
Цифры говорят сами за себя:
| Платформа | Токенов/сек (Llama 3.1 8B) |
|---|---|
| Taalas HC1 | ~16 000 |
| Cerebras | ~2 000 |
| SambaNova | ~900 |
| Groq | ~600 |
| NVIDIA Blackwell | ~350 |
Разрыв — порядок величины. При тестировании EE Times чатбот стабильно выдавал 15 000+ токенов в секунду, а внутренние тесты достигали 17 000.
Два уровня маски — и новый чип за два месяца
Ключевая инновация — заимствование из structured ASIC 2000-х годов. Для кастомизации чипа под новую модель меняются всего два слоя масок. Это позволяет делать новый tape-out за две недели работы и два месяца до готового чипа.
Taalas даже смоделировала, как выглядел бы DeepSeek-R1 (671B параметров) на их архитектуре: потребуется порядка 30 чипов (каждый до ~20B параметров в формате MXFP4), но скорость составит ~12 000 токенов в секунду — при 200 tok/s на GPU сегодня. Цена — 7.6 центов за миллион токенов, вдвое дешевле GPU.
Компромисс, который имеет смысл
Минусы очевидны: один чип — одна модель. Вышла новая версия Llama? Нужен новый tape-out. Это не инструмент для экспериментов — это промышленный инференс для тех, кто точно знает, какую модель будет крутить следующий год.
Но для определённых сценариев — AI-ассистенты, голосовые интерфейсы, real-time генерация — 16 000 tok/s меняет правила игры. При такой скорости задержка ответа становится незаметной, а стоимость обслуживания падает драматически.
Компания привлекла $169M финансирования. Демо бесплатно доступно для всех — можно попробовать прямо сейчас на chat.taalas.com.
Что это значит для рынка
Taalas не убьёт NVIDIA — GPU остаются незаменимыми для обучения и для работы с меняющимися моделями. Но стартап показал, что есть огромное пространство для оптимизации инференса, которое индустрия пока игнорирует.
Если подход масштабируется до моделей уровня DeepSeek-R1 и GPT-5, это может перевернуть экономику AI-сервисов. Когда инференс стоит в разы дешевле, а скорость — в разы выше, появляются приложения, которые сегодня просто невозможны.


