“`html
Решение для уменьшения затрат памяти в кеше ключ-значение (KV) с помощью Cross-Layer Attention (CLA) от исследователей MIT
Размер кеша KV может оказаться узким местом при обслуживании больших моделей языка, так как он масштабируется пропорционально длине последовательности и размеру пакета. Это ограничивает размеры пакетов для длинных последовательностей и требует дорогостоящих техник, таких как выгрузка, когда память на устройстве ограничена. Кроме того, способность сохранять и извлекать кеши KV на протяжении длительных периодов желательна для избежания избыточных вычислений. Однако размер кеша KV напрямую влияет на стоимость и возможность хранения и извлечения этих постоянных кешей.
Традиционные методы MQA и GQA
Для уменьшения размера кеша KV традиционно применялись Multi-Query Attention (MQA) и Grouped-Query Attention (GQA). MQA организует запросы в группы, а GQA обобщает эту идею, позволяя разное количество групп. Однако эти методы имеют ограничения в отношении уменьшения объема памяти.
Метод Cross-Layer Attention (CLA)
Исследователи из MIT разработали метод Cross-Layer Attention (CLA), который позволяет совместное использование ключей и значений не только внутри слоя, но и между смежными слоями. CLA добивается значительного уменьшения объема памяти кеша KV, что позволяет использовать более крупные размеры пакетов и продлевает время хранения кеша KV.
Преимущества и применение
CLA уменьшает затраты памяти на активации KV во время обучения и совместим с параллельными техниками. Он также уменьшает количество параметров в модели и количество операций. CLA способствует улучшению скорости вывода в контексте полного стека обслуживания LLM. Однако он не влияет на пропускную способность памяти, потребляемую механизмом внимания в каждом шаге декодирования или на скорость вычисления внимания.
Эффективность исследования
Эксперименты показали, что CLA обеспечивает хороший баланс между точностью и затратами памяти, превосходя обычные методы. Особенно эффективным оказался CLA2, который дает значительное уменьшение кеша KV при незначительном ухудшении сложности. Исследователи рекомендуют реализацию MQA-CLA2 для получения значительного уменьшения затрат памяти с небольшим риском.
Заключение
CLA от исследователей MIT представляет собой эффективный метод для снижения объема памяти кеша KV в моделях трансформера с минимальным влиянием на сложность. Он продвигает фронт памяти-эффективных трансформеров и является перспективным решением для приложений с ограниченными ресурсами.
Информация и контакты
Больше информации о исследовании доступно в документе.
Следите за нашими новостями в Twitter и в нашем Телеграм-канале.
“`