GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
asicчипыинференсtaalashardware

Taalas: 16 000 токенов в секунду, когда LLM запечена в кремний

Стартап Taalas вшивает модели прямо в ASIC-чипы — без HBM, без GPU. Llama 3.1 8B работает в 8 раз быстрее Cerebras. Разбираем технологию и последствия.

Влад МакаровВлад Макаровпроверил и опубликовал
6 мин чтения
Taalas: 16 000 токенов в секунду, когда LLM запечена в кремний

16 960 токенов в секунду на пользователя. Не опечатка. Стартап Taalas из Торонто показал чип HC1, который прогоняет Llama 3.1 8B в 8 раз быстрее Cerebras и в 45 раз быстрее NVIDIA Blackwell. Секрет — модель буквально вшита в кремний.

Как это работает

Идея звучит безумно: взять нейросеть и запечь её целиком в ASIC-чип. Веса, архитектура, dataflow — всё зашито на уровне транзисторов. Никакого HBM, никакой программируемости. Чип HC1 умеет ровно одно — запускать Llama 3.1 8B. И делает это с нечеловеческой скоростью.

Основатель компании — Любиша Баич, сооснователь и бывший CEO Tenstorrent. Он объяснил EE Times, почему никто раньше не пробовал: «Все считали, что AI меняется так быстро, что это будет безумно рискованно. И это правда — в какой-то степени. Но мы хотели посмотреть, что скрывается в этом углу, и оказалось — там очень много».

Технически HC1 построен на TSMC N6 с площадью кристалла 815 мм². Вся модель 8B помещается на одном чипе. Потребление — около 250 Вт, что позволяет ставить 10 карт в стандартную серверную стойку с воздушным охлаждением. Стоимость — 0.75 центов за миллион токенов.

Сравнение скорости

Цифры говорят сами за себя:

ПлатформаТокенов/сек (Llama 3.1 8B)
Taalas HC1~16 000
Cerebras~2 000
SambaNova~900
Groq~600
NVIDIA Blackwell~350

Разрыв — порядок величины. При тестировании EE Times чатбот стабильно выдавал 15 000+ токенов в секунду, а внутренние тесты достигали 17 000.

Два уровня маски — и новый чип за два месяца

Ключевая инновация — заимствование из structured ASIC 2000-х годов. Для кастомизации чипа под новую модель меняются всего два слоя масок. Это позволяет делать новый tape-out за две недели работы и два месяца до готового чипа.

Taalas даже смоделировала, как выглядел бы DeepSeek-R1 (671B параметров) на их архитектуре: потребуется порядка 30 чипов (каждый до ~20B параметров в формате MXFP4), но скорость составит ~12 000 токенов в секунду — при 200 tok/s на GPU сегодня. Цена — 7.6 центов за миллион токенов, вдвое дешевле GPU.

Компромисс, который имеет смысл

Минусы очевидны: один чип — одна модель. Вышла новая версия Llama? Нужен новый tape-out. Это не инструмент для экспериментов — это промышленный инференс для тех, кто точно знает, какую модель будет крутить следующий год.

Но для определённых сценариев — AI-ассистенты, голосовые интерфейсы, real-time генерация — 16 000 tok/s меняет правила игры. При такой скорости задержка ответа становится незаметной, а стоимость обслуживания падает драматически.

Компания привлекла $169M финансирования. Демо бесплатно доступно для всех — можно попробовать прямо сейчас на chat.taalas.com.

Что это значит для рынка

Taalas не убьёт NVIDIA — GPU остаются незаменимыми для обучения и для работы с меняющимися моделями. Но стартап показал, что есть огромное пространство для оптимизации инференса, которое индустрия пока игнорирует.

Если подход масштабируется до моделей уровня DeepSeek-R1 и GPT-5, это может перевернуть экономику AI-сервисов. Когда инференс стоит в разы дешевле, а скорость — в разы выше, появляются приложения, которые сегодня просто невозможны.

Похожие новости

Листайте вниз

для загрузки следующей статьи