TurboQuant: алгоритм Google сжал кэш LLM до 3 бит без потери точности

2 месяца назад 27 марта 2026 в 20:05 21071

Исследовательское подразделение Google представило метод компрессии данных, который позволяет сократить объем временного хранилища больших языковых моделей в шесть раз без ухудшения качества ответов. Технология получила название TurboQuant и нацелена на ключевое узкое место в работе нейросетей — кэш ключей и значений, который в процессе генерации текста занимает все больше памяти по мере увеличения входного контекста. В тестах на ускорителях H100 использование 4-битного TurboQuant ускорило вычисление механизма внимания в восемь раз по сравнению с 32-битным эталонным вариантом.

Разработка состоит из двух взаимодополняющих этапов. Сначала метод PolarQuant преобразует векторные данные из декартовых координат в полярные, что позволяет отказаться от хранения нормировочных коэффициентов, которые в классических алгоритмах компрессии съедают до двух дополнительных битов на каждое число. Затем технология QJL, основанная на преобразовании Джонсона — Линденштрауса, исправляет оставшуюся после первого этапа погрешность всего одним битом на измерение. В итоге кэш KV удалось сжать до 3 битов на значение — при том что отраслевой стандарт ранее составлял 16 битов.

Валидация проходила на открытых моделях Gemma, Mistral и LLaMA с использованием бенчмарков LongBench, «иголка в стоге сена» и ZeroSCROLLS. Во всех тестах на извлечение единичного факта из длинных текстов TurboQuant сохранил исходную точность, в то время как базовый метод KIVI показывал заметное снижение качества. При этом для применения алгоритма не требуется дообучение или тонкая настройка модели — он работает как надстройка над уже готовой сетью.

Публикация технического описания 24 марта 2026 года вызвала немедленную реакцию на фондовых рынках. За два дня капитализация Samsung Electronics снизилась на 4,71 процента, SK Hynix — на 6,23 процента, а американские Micron Technology и SanDisk потеряли 6,9 и 11 процентов соответственно. Общая сумма списаний по сектору превысила 900 миллиардов долларов. Инвесторы интерпретировали новость как сигнал о возможном сокращении спроса на чипы памяти в эпоху массового вывода моделей на этап логического вывода.

Аналитики крупнейших инвестбанков назвали такую реакцию избыточной. В Morgan Stanley указали, что TurboQuant влияет только на кэш KV в процессе инференса и не затрагивает ни веса моделей, которые занимают основную часть высокопроизводительной памяти HBM, ни вычислительные этапы обучения. Кроме того, технология не отменяет необходимость в физическом объеме DRAM — она повышает эффективность использования уже установленных ресурсов, позволяя на том же оборудовании обрабатывать более длинные контексты или обслуживать больше пользователей одновременно.

Ряд экспертов привели в пример эффект Джейвонса: повышение эффективности использования ресурса, как правило, ведет не к сокращению, а к росту общего потребления за счет снижения стоимости единицы услуги и расширения доступных сценариев. По оценкам Samsung Securities, если конкуренция между разработчиками моделей остается высокой, любая оптимизация направляется на повышение производительности, а не на экономию оборудования. Cloudflare CEO Мэттью Принс назвал TurboQuant «моментом DeepSeek» для Google, имея в виду, что за краткосрочной паникой последует новый виток спроса на вычислительные ресурсы.

Техническая документация по TurboQuant, QJL и PolarQuant будет представлена в апреле 2026 года на конференциях ICLR и AISTATS. Сроки внедрения алгоритма в собственные сервисы Google — включая поиск, рекомендательные системы и модели Gemini — компания пока не раскрывает.

Дмитрий Павлов

Никто не прокомментировал материал. Есть мысли?

TurboQuant: алгоритм Google сжал кэш LLM до 3 бит без потери точности

Отменить ответ