Исследователи MIT предлагают Cross-Layer Attention (CLA): модификацию архитектуры трансформера, которая уменьшает размер кэша Key-Value (KV) путем совместного использования активаций KV между слоями.

 MIT Researchers Propose Cross-Layer Attention (CLA): A Modification to the Transformer Architecture that Reduces the Size of the Key-Value KV Cache by Sharing KV Activations Across Layers

“`html

Решение для уменьшения затрат памяти в кеше ключ-значение (KV) с помощью Cross-Layer Attention (CLA) от исследователей MIT

Размер кеша KV может оказаться узким местом при обслуживании больших моделей языка, так как он масштабируется пропорционально длине последовательности и размеру пакета. Это ограничивает размеры пакетов для длинных последовательностей и требует дорогостоящих техник, таких как выгрузка, когда память на устройстве ограничена. Кроме того, способность сохранять и извлекать кеши KV на протяжении длительных периодов желательна для избежания избыточных вычислений. Однако размер кеша KV напрямую влияет на стоимость и возможность хранения и извлечения этих постоянных кешей.

Традиционные методы MQA и GQA

Для уменьшения размера кеша KV традиционно применялись Multi-Query Attention (MQA) и Grouped-Query Attention (GQA). MQA организует запросы в группы, а GQA обобщает эту идею, позволяя разное количество групп. Однако эти методы имеют ограничения в отношении уменьшения объема памяти.

Метод Cross-Layer Attention (CLA)

Исследователи из MIT разработали метод Cross-Layer Attention (CLA), который позволяет совместное использование ключей и значений не только внутри слоя, но и между смежными слоями. CLA добивается значительного уменьшения объема памяти кеша KV, что позволяет использовать более крупные размеры пакетов и продлевает время хранения кеша KV.

Преимущества и применение

CLA уменьшает затраты памяти на активации KV во время обучения и совместим с параллельными техниками. Он также уменьшает количество параметров в модели и количество операций. CLA способствует улучшению скорости вывода в контексте полного стека обслуживания LLM. Однако он не влияет на пропускную способность памяти, потребляемую механизмом внимания в каждом шаге декодирования или на скорость вычисления внимания.

Эффективность исследования

Эксперименты показали, что CLA обеспечивает хороший баланс между точностью и затратами памяти, превосходя обычные методы. Особенно эффективным оказался CLA2, который дает значительное уменьшение кеша KV при незначительном ухудшении сложности. Исследователи рекомендуют реализацию MQA-CLA2 для получения значительного уменьшения затрат памяти с небольшим риском.

Заключение

CLA от исследователей MIT представляет собой эффективный метод для снижения объема памяти кеша KV в моделях трансформера с минимальным влиянием на сложность. Он продвигает фронт памяти-эффективных трансформеров и является перспективным решением для приложений с ограниченными ресурсами.

Информация и контакты

Больше информации о исследовании доступно в документе.

Следите за нашими новостями в Twitter и в нашем Телеграм-канале.

“`

Полезные ссылки: