Исследователи MIT предлагают Cross-Layer Attention (CLA): модификацию архитектуры трансформера, которая уменьшает размер кэша Key-Value (KV) путем совместного использования активаций KV между слоями.

Itinai.com a split screen photorealistic image of two compute 3f3c3d48 14eb 458c bcf3 739369f920b8 2

«`html

Решение для уменьшения затрат памяти в кеше ключ-значение (KV) с помощью Cross-Layer Attention (CLA) от исследователей MIT

Размер кеша KV может оказаться узким местом при обслуживании больших моделей языка, так как он масштабируется пропорционально длине последовательности и размеру пакета. Это ограничивает размеры пакетов для длинных последовательностей и требует дорогостоящих техник, таких как выгрузка, когда память на устройстве ограничена. Кроме того, способность сохранять и извлекать кеши KV на протяжении длительных периодов желательна для избежания избыточных вычислений. Однако размер кеша KV напрямую влияет на стоимость и возможность хранения и извлечения этих постоянных кешей.

Традиционные методы MQA и GQA

Для уменьшения размера кеша KV традиционно применялись Multi-Query Attention (MQA) и Grouped-Query Attention (GQA). MQA организует запросы в группы, а GQA обобщает эту идею, позволяя разное количество групп. Однако эти методы имеют ограничения в отношении уменьшения объема памяти.

Метод Cross-Layer Attention (CLA)

Исследователи из MIT разработали метод Cross-Layer Attention (CLA), который позволяет совместное использование ключей и значений не только внутри слоя, но и между смежными слоями. CLA добивается значительного уменьшения объема памяти кеша KV, что позволяет использовать более крупные размеры пакетов и продлевает время хранения кеша KV.

Преимущества и применение

CLA уменьшает затраты памяти на активации KV во время обучения и совместим с параллельными техниками. Он также уменьшает количество параметров в модели и количество операций. CLA способствует улучшению скорости вывода в контексте полного стека обслуживания LLM. Однако он не влияет на пропускную способность памяти, потребляемую механизмом внимания в каждом шаге декодирования или на скорость вычисления внимания.

Эффективность исследования

Эксперименты показали, что CLA обеспечивает хороший баланс между точностью и затратами памяти, превосходя обычные методы. Особенно эффективным оказался CLA2, который дает значительное уменьшение кеша KV при незначительном ухудшении сложности. Исследователи рекомендуют реализацию MQA-CLA2 для получения значительного уменьшения затрат памяти с небольшим риском.

Заключение

CLA от исследователей MIT представляет собой эффективный метод для снижения объема памяти кеша KV в моделях трансформера с минимальным влиянием на сложность. Он продвигает фронт памяти-эффективных трансформеров и является перспективным решением для приложений с ограниченными ресурсами.

Информация и контакты

Больше информации о исследовании доступно в документе.

Следите за нашими новостями в Twitter и в нашем Телеграм-канале.

«`

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Сотрудничество

Бесплатный ИИ текст генератор

Спросить ИИ чат

Заказать разработку

25.05.2024

Владимир Дьячков PhD

Лучшие ИИ

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ

21.09.2024

Лучшие ИИ

Новый подход к символьной регрессии с использованием больших языковых моделей.

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
06.05.2025

AI доход

Как зарабатывать на AI в нише психологии

Бизнес-план: AI в психологии для фрилансеров, малого бизнеса и блогеров (Mini-Lean Canvas) Краткий обзор: Создание и монетизация AI-решений в сфере психологии с использованием платформы itinai.ru. Нацелено на предоставление…
04.11.2024

Лучшие ИИ

25 лучших AI-ассистентов в 2025 году

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
16.10.2023

ИИ агенты

ИИ-Специалист по автоматизации HR-аналитики : прогноз текучести кадров

Профессиональные компетенции AI-Специалист по автоматизации HR-аналитики — это цифровой эксперт, разработанный для повышения эффективности управления персоналом. С использованием продвинутых алгоритмов машинного обучения и анализа данных, система выявляет риски…
30.03.2025

Лучшие ИИ

Понимание памяти AI-агента: ключ к созданию интеллектуальных систем

Понимание Памяти AI Агентов: Основы Интеллектуальных Систем Память AI агента включает несколько уровней, каждый из которых выполняет свою уникальную роль в формировании поведения и принятии решений агента. Разделяя…
12.08.2025

Лучшие ИИ

LEANN: Компактная векторная база данных для эффективного персонального ИИ

Встречайте LEANN: Самая маленькая векторная база данных, демократизирующая персональный ИИ с эффективным по объему индексом поиска приближенных соседей (ANN) В современном мире, где искусственный интеллект проникает во все…
21.05.2025

Бесплатный ИИ

Как описать нефункциональные требования: ИИ подберет формулировки по категориям качества

Как пользоваться чатботом для создания нефункциональных требований Чатбот — ваш личный помощник в автоматизации подготовки технических заданий. Просто введите тип системы (например, «мобильное приложение для интернет-банкинга») и получите…

бизнес-аналитик
11.08.2024

Лучшие ИИ

Новый инструмент для создания среды для тестирования агентов с использованием искусственного интеллекта.

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ

Решение для уменьшения затрат памяти в кеше ключ-значение (KV) с помощью Cross-Layer Attention (CLA) от исследователей MIT

Традиционные методы MQA и GQA

Метод Cross-Layer Attention (CLA)

Преимущества и применение

Эффективность исследования

Заключение

Информация и контакты

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

AI-бот в канале про финансы и инвестиции

AI в нише животных — бизнес для зоомагазина и блогера

Использование AI для специалистов по питанию

Монетизация для фитнес тренера с помощью искусственного интеллекта

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Консультант по персонализации CRM : сегментация и рекомендации

ИИ-Консультант по закупкам : оптимизация выбора поставщиков

ИИ-Агент по управлению заявками : автоматизация обработки тикетов

ИИ-Агент по автоматизации отчетности : генерация финансовых и операционных отчетов

Как оформить бренд-гайд на 5 страниц: ИИ предложит структуру, стили и примеры формулировок

Как адаптировать ИТ-обучение для немассовых пользователей: ИИ предложит текст и формат “просто о сложном”

Как настроить CJM для новой целевой аудитории: ИИ разложит этапы и боли по шаблону

Как приоритизировать требования по модели MoSCoW: ИИ разнесёт список по категориям

Как оформить возврат товара покупателем: искусственный интеллект подскажет, как избежать конфликта и оформить всё по правилам

Как оформить паспорт корпоративной программы обучения: ИИ предложит разделы и формулировки

Лучший ИИ онлайн

Новый подход к символьной регрессии с использованием больших языковых моделей.

Как зарабатывать на AI в нише психологии

25 лучших AI-ассистентов в 2025 году

ИИ-Специалист по автоматизации HR-аналитики : прогноз текучести кадров

Понимание памяти AI-агента: ключ к созданию интеллектуальных систем

LEANN: Компактная векторная база данных для эффективного персонального ИИ

Как описать нефункциональные требования: ИИ подберет формулировки по категориям качества

Новый инструмент для создания среды для тестирования агентов с использованием искусственного интеллекта.

Куки-политика

Партнеры

О нас

Редакционная политика

Политика конфиденциальности

FAQ