GPT-5 без VPN

Aijora.ru — без ограничений

Попробовать бесплатно
Все новости
квантизацияlocal-llmrotorquantturboquantоптимизация

RotorQuant: квантизация LLM в 10-19 раз быстрее TurboQuant

Новый метод квантизации RotorQuant через роторы Клиффорда ускоряет процесс в 10-19 раз при 44-кратном сокращении параметров. Критически важно для local LLM.

Влад МакаровВлад Макаровпроверил и опубликовал
2 мин чтения

Через несколько дней после того, как Google представил TurboQuant — метод, сокращающий потребление памяти LLM в 6 раз без значительной потери качества, — сообщество local LLM уже нашло способ сделать это быстрее. Намного быстрее.

Что произошло

RotorQuant — альтернативный подход к квантизации, основанный на роторах Клиффорда (математические объекты из геометрической алгебры). Метод решает ту же задачу, что и TurboQuant от Google — оптимальное распределение точности между слоями модели — но делает это в 10-19 раз быстрее при 44-кратном сокращении количества оптимизируемых параметров.

Реализация написана на C++ с фокусом на производительность. По сути, RotorQuant заменяет тяжёлые матричные оптимизации из TurboQuant компактными операциями вращения, которые дают сопоставимое качество за малую долю времени.

Ключевые цифры:

  • Ускорение: 10-19x по сравнению с TurboQuant
  • Сокращение параметров: 44x (меньше параметров для оптимизации)
  • Качество: сопоставимое с TurboQuant

Почему это важно

Квантизация — ключевая технология для запуска больших моделей на потребительском железе. TurboQuant от Google показал впечатляющие результаты, но его скорость работы ограничивала практическое применение для энтузиастов, которые хотят квантизировать модели самостоятельно.

RotorQuant делает этот процесс доступнее. Если раньше оптимальная квантизация 70B-модели могла занимать часы, теперь речь идёт о минутах. Для сообщества local LLM, где каждый гигабайт VRAM на счету, это критическое улучшение.

Что дальше

RotorQuant пока существует как исследовательский проект, но учитывая интерес сообщества, интеграция в популярные инструменты вроде llama.cpp — вопрос времени. В сочетании с дешёвым VRAM от новых GPU (вроде Intel Arc Pro B70 с 32 ГБ за $949) это ещё один шаг к тому, чтобы frontier-модели работали на домашнем железе.

Похожие новости

Листайте вниз

для загрузки следующей статьи