Улучшение работы и снижение потребления памяти в искусственном интеллекте

Легче сразу спросить 💭

AI

AI снижает операционные расходы на 20–40% 📊 за 6 месяцев. А что бы вы сделали с этими деньгами?

Опишите задачу — обсудим, как это можно реализовать у вас.

ИИ автоматизирует 70% рутинных задач 🤖 за 3 месяца. Какие процессы в вашем бизнесе скинуть роботу?
Персонализированные AI-кампании увеличивают клиентскую базу на 30% 📈. Как это работает?
AI-аналитика сокращает ошибки в прогнозах на 50% 📉. Расскажите подробнее!
 An Efficient AI Approach to Memory Reduction and Throughput Enhancement in LLMs

«`html

Эффективный подход к снижению потребления памяти и увеличению пропускной способности в LLM

Эффективное развертывание больших языковых моделей (LLM) требует высокой пропускной способности и низкой задержки. Однако значительное потребление памяти LLM, особенно кэшем ключ-значение (KV), мешает достижению больших объемов пакетов и высокой пропускной способности. Кэш ключ-значение, хранящий ключи и значения во время генерации, потребляет более 30% памяти GPU. Различные подходы, такие как сжатие последовательностей KV и динамические политики вытеснения кэша, направлены на смягчение этой нагрузки на память в LLM.

Практические решения:

  • Внедрение страниц внимания для снижения фрагментации памяти.
  • Сжатие запросов, удаление избыточности входного контекста и покадровое сжатие токенов.
  • Обрезка неважных токенов, применение различных стратегий обрезки к кэшу внимания и хранение только важных токенов.

Исследователи из Школы информационных наук и технологий Университета ШанхайТэч и Шанхайского инженерного центра интеллектуального зрения и изображений представляют эффективный подход к снижению потребления памяти в кэше KV декодеров-трансформаторов путем уменьшения числа кэшируемых слоев. Путем сопоставления запросов всех слоев с ключами и значениями только верхнего слоя требуется кэшировать только ключи и значения одного слоя, что существенно экономит память без дополнительной вычислительной нагрузки.

Полученные результаты:

  • Существенное сокращение потребления памяти и увеличение пропускной способности.
  • Интеграция со StreamingLLM для снижения задержки и потребления памяти.

Проверьте статью и GitHub. Вся честь за это исследование принадлежит исследователям этого проекта.

Не забудьте подписаться на наш Twitter. Присоединяйтесь к нашим каналам в Telegram, Discord и LinkedIn.

Если вам понравилась наша работа, вам понравится и наша рассылка. Не забудьте присоединиться к нашему SubReddit.

«`

Полезные ссылки:

Новости в сфере искусственного интеллекта