asicчипыинференс
Taalas: 16 000 токенов в секунду, когда LLM запечена в кремний
Стартап Taalas вшивает модели прямо в ASIC-чипы — без HBM, без GPU. Llama 3.1 8B работает в 8 раз быстрее Cerebras. Разбираем технологию и последствия.
6 мин
Релизы, исследования, тренды — всё самое важное простым языком
Страница 21 из 35