Taalas LLM Burner: ASIC-карта, которая прожигает Qwen 3.5 27B прямо в кремний

Стартап Taalas готовит PCIe-карту LLM Burner, которая записывает веса модели прямо в кремний. 10 000 токенов в секунду, розница $600–800. Разбираем технологию HC1, сравниваем с GPU и Cerebras.

10 000 токенов в секунду из обычной PCIe-карты — без видеокарты, без облака, без абонентской платы. Стартап Taalas, о котором ещё год назад почти никто не слышал, готовит к выходу устройство с провокационным названием LLM Burner. Идея радикальная: взять веса языковой модели и буквально впечатать их в кремний ASIC-чипа. Первой моделью для потребительской карты станет Qwen 3.5 27B. Тема взорвала Reddit — пост набрал 417 очков и 176 комментариев с главным вопросом: «За какую цену вы бы купили?»

Что такое Taalas и откуда они взялись

Taalas — стартап, основанный два с половиной года назад под руководством CEO Любиши Баича (Ljubisa Bajic). Команда из 24 человек потратила $30 млн из привлечённых $200 млн на разработку чипа HC1, и результат оказался достаточно впечатляющим, чтобы привлечь внимание Forbes.

Суть технологии проста на словах и дьявольски сложна в реализации. Обычный GPU — универсальный вычислитель: он загружает веса модели в память и перемножает матрицы на лету. Taalas идёт другим путём — веса модели хардкодятся прямо в топологию ASIC-чипа на этапе производства. Чип буквально «знает» модель на уровне транзисторов. Это убирает узкое горлышко памяти, которое душит все современные GPU при инференсе.

По данным Forbes, первым продуктом стала реализация Llama 8B на чипе HC1. Цифры заставляют перечитать дважды: 14 357 токенов в секунду. Для контекста — это генерация подробной истории Второй мировой войны за 0,138 секунды. В десять раз быстрее Cerebras и в сто раз быстрее GPU.

Как это работает

Ключевое инженерное решение — разделение чипа на слои, которые меняются, и слои, которые остаются постоянными. При обновлении модели нужно переделать только два металлических слоя из всего стека. Это позволяет Taalas обещать двухмесячный цикл обновления — от новых весов до готового чипа.

Звучит как приговор гибкости, но компания предусмотрела несколько смягчающих механизмов. LoRA-файнтюнинг поддерживается — можно дообучать модель поверх зашитых весов. Контекстное окно настраивается программно. То есть базовая модель фиксирована в кремнии, но адаптация под конкретные задачи всё ещё возможна.

Технические характеристики HC1:

Охлаждение: воздушное (без жидкостного контура)
Форм-фактор: стандартный PCIe
Совместимость: Intel/AMD CPU
Потребление: 12–15 КВт на стойку (против 120–600 КВт у GPU-стоек)
Обновление модели: ~2 месяца (смена двух металлических слоёв)
LoRA-файнтюнинг: поддерживается
Контекстное окно: настраиваемое

Цифры, которые меняют экономику

Главный аргумент Taalas — не скорость, а стоимость. Вот как выглядит сравнение на примере Llama 8B:

Параметр	Taalas HC1	Cerebras	GPU (облако)
Скорость (tok/s)	14 357	~1 400	~140
Стоимость ($/M tokens)	$0,0075	$0,038–0,286	$0,10–0,50
Энергопотребление (КВт/стойка)	12–15	30–60	120–600

Разница в стоимости инференса — от пяти до сорока раз. Энергопотребление ниже на порядок. Для дата-центров, где электричество и охлаждение составляют основную статью расходов, это не оптимизация — это смена парадигмы.

Воздушное охлаждение и стандартный PCIe-слот означают, что карту можно вставить в обычный сервер. Не нужна специализированная инфраструктура, не нужны контракты с NVIDIA на поставку. Просто карта в слоте.

LLM Burner: от дата-центров к потребителям

До сих пор Taalas работал исключительно в серверном сегменте. LLM Burner — первая заявка на потребительский рынок. Джозеф Бенгира (Joseph Benguira) подтвердил анонс в LinkedIn, а Reddit-сообщество LocalLLaMA моментально подхватило тему.

Слухи о спецификациях выглядят так: карта будет нести Qwen 3.5 27B, прожжённую в кремний по той же технологии HC1. Ожидаемая скорость — 10 000 токенов в секунду. Себестоимость производства, по утечкам, составит $300–400, розничная цена — $600–800.

Для понимания масштаба: 27-миллиардная модель на GPU уровня RTX 4090 выдаёт порядка 30–50 токенов в секунду при полной загрузке. Taalas обещает двухсоткратное ускорение за цену, сравнимую с самой видеокартой.

Реакция сообщества предсказуемо разделилась. Скептики указывают на очевидный недостаток: купив карту с Qwen 3.5 27B, вы привязаны к этой модели навсегда. Через полгода выйдет Qwen 4, и карта превратится в дорогой кирпич. Оптимисты парируют: если цена действительно будет $600–800, то даже год использования окупит себя за счёт экономии на облачном инференсе. А при стоимости в $300–400 (себестоимость) модель подписки с ежегодной заменой карты выглядит вполне жизнеспособной.

Дорожная карта и конкуренты

Taalas не собирается останавливаться на Llama 8B и потребительском Qwen. Вторым продуктом станет среднеразмерная reasoning-модель — её обещают к весне 2026 года, то есть буквально сейчас. Платформа HC2 для фронтирных LLM запланирована на зиму 2026.

Конкурентное поле своеобразное. Прямых аналогов у Taalas нет — никто другой не записывает веса в кремний. Cerebras делает ставку на гигантские вафельные чипы. Groq разработал собственную архитектуру LPU. Но все они работают в парадигме «универсальный чип + загружаемая модель». Taalas единственные, кто жертвует гибкостью ради абсолютной скорости и энергоэффективности.

Есть и стратегический риск. $200 млн — серьёзное финансирование, но для полупроводниковой компании это скромный бюджет. Каждая новая модель требует нового тейпаута, а двухмесячный цикл всё равно медленнее, чем загрузка свежих весов на GPU. Если темп обновления моделей продолжит ускоряться, Taalas рискует постоянно отставать на один-два поколения.

Что это значит для рынка

Появление ASIC-карт для конкретных моделей — сигнал о зрелости индустрии. Когда архитектуры стабилизируются настолько, что имеет смысл выжигать их в кремнии, это говорит о переходе из фазы экспериментов в фазу промышленной эксплуатации. Мы видели такое в криптомайнинге: сначала GPU, потом FPGA, потом ASIC — и каждый переход снижал стоимость операции на порядок.

Для энтузиастов локального инференса LLM Burner может стать переломным моментом. Сейчас запуск 27B модели требует дорогой видеокарты с большим количеством VRAM и смирения с низкой скоростью. Карта за $600–800, которая делает это в 200 раз быстрее, — это качественно другой пользовательский опыт.

Для облачных провайдеров Taalas пока не представляет экзистенциальной угрозы — их козырь в гибкости и доступе к десяткам моделей. Но если технология масштабируется до HC2 и фронтирных моделей, экономика облачного инференса может радикально измениться.

Выводы

Taalas предлагает радикальный компромисс: абсолютная скорость и минимальная стоимость инференса в обмен на привязку к конкретной модели. Для многих задач — чат-боты поддержки, генерация контента, обработка документов — это вполне приемлемый размен. Модель не меняется каждый месяц, а скорость и цена решают.

LLM Burner с Qwen 3.5 27B — первый тест потребительского спроса на такой подход. Если 176 комментаторов на Reddit хоть отчасти репрезентативны, спрос будет. Остаётся дождаться реальных поставок и независимых бенчмарков — обещания стартапов и серийное производство не всегда совпадают.

Ближайшие месяцы покажут, станет ли «прожигание моделей в кремний» нишевой экзотикой или началом нового класса устройств. HC2 для фронтирных моделей зимой 2026 года — вот настоящая проверка амбиций Taalas.

Официальный GPT-5 и другие нейросети

GPT-5 без VPN

Taalas LLM Burner: ASIC-карта, которая прожигает Qwen 3.5 27B прямо в кремний

Что такое Taalas и откуда они взялись

Как это работает

Цифры, которые меняют экономику

LLM Burner: от дата-центров к потребителям

Дорожная карта и конкуренты

Что это значит для рынка

Выводы

Похожие новости

Китайские чипмейкеры захватили 41% внутреннего рынка AI-ускорителей

Taalas: 16 000 токенов в секунду, когда LLM запечена в кремний

32 ГБ VRAM за $949: Intel Arc Pro B70 меняет правила для local AI