Улучшение работы и снижение потребления памяти в искусственном интеллекте

Легче сразу спросить

AI снижает операционные расходы на 20–40% за 6 месяцев. А что бы вы сделали с этими деньгами?

Опишите задачу — обсудим, как это можно реализовать у вас.

ИИ автоматизирует 70% рутинных задач

за 3 месяца. Какие процессы в вашем бизнесе скинуть роботу?

Персонализированные AI-кампании увеличивают клиентскую базу на 30%

. Как это работает?

AI-аналитика сокращает ошибки в прогнозах на 50%

. Расскажите подробнее!

«`html

Эффективный подход к снижению потребления памяти и увеличению пропускной способности в LLM

Эффективное развертывание больших языковых моделей (LLM) требует высокой пропускной способности и низкой задержки. Однако значительное потребление памяти LLM, особенно кэшем ключ-значение (KV), мешает достижению больших объемов пакетов и высокой пропускной способности. Кэш ключ-значение, хранящий ключи и значения во время генерации, потребляет более 30% памяти GPU. Различные подходы, такие как сжатие последовательностей KV и динамические политики вытеснения кэша, направлены на смягчение этой нагрузки на память в LLM.

Практические решения:

Внедрение страниц внимания для снижения фрагментации памяти.
Сжатие запросов, удаление избыточности входного контекста и покадровое сжатие токенов.
Обрезка неважных токенов, применение различных стратегий обрезки к кэшу внимания и хранение только важных токенов.

Исследователи из Школы информационных наук и технологий Университета ШанхайТэч и Шанхайского инженерного центра интеллектуального зрения и изображений представляют эффективный подход к снижению потребления памяти в кэше KV декодеров-трансформаторов путем уменьшения числа кэшируемых слоев. Путем сопоставления запросов всех слоев с ключами и значениями только верхнего слоя требуется кэшировать только ключи и значения одного слоя, что существенно экономит память без дополнительной вычислительной нагрузки.

Полученные результаты:

Существенное сокращение потребления памяти и увеличение пропускной способности.
Интеграция со StreamingLLM для снижения задержки и потребления памяти.

Проверьте статью и GitHub. Вся честь за это исследование принадлежит исследователям этого проекта.

Не забудьте подписаться на наш Twitter. Присоединяйтесь к нашим каналам в Telegram, Discord и LinkedIn.

Если вам понравилась наша работа, вам понравится и наша рассылка. Не забудьте присоединиться к нашему SubReddit.

«`

Улучшение работы и снижение потребления памяти в искусственном интеллекте

Эффективный подход к снижению потребления памяти и увеличению пропускной способности в LLM

Практические решения:

Полученные результаты:

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Решения с искусственным интеллектом

AI решения и автоматизация бизнеса

Умные AI продажи

AI база знаний вашей компании

AI ассистент для умных бизнес-решений

AI Support для вашего бизнеса

AI-обучение и онбординг

ИИ-агенты интеллектуальная автоматизация бизнеса

ИИ-Агент по анализу отзывов : мониторинг мнений в соцсетях и на маркетплейсах

ИИ-Агент для анализа данных о клиентах : выявление скрытых сегментов

ИИ-Агент для анализа данных о транспорте : оптимизация графиков и маршрутов

ИИ-Оптимизатор складских запасов : прогнозирование потребностей и минимизация издержек

Готовые ИТ — решения для бизнеса

Платформа для создания лендингов с A/B тестированием и ИИ-генерацией контента

Платформа для создания лендингов с A/B тестированием и ИИ-генерацией контента

Мобильное приложение для салона красоты с ИИ-консьержем и P2P-видеоконсультацией

Кабинет клиента для фитнес-клуба с мгновенной записью и программой лояльности

Новости в сфере искусственного интеллекта

«Introducing RAGTune: an innovative tool designed to automate tuning and optimization for the RAG (Retrieval-Augmented Generation) pipeline. With RAGTune, streamline your workflow and improve efficiency, ensuring top-notch performance and results. #RAG #Optimization #AI»

Agent-FLAN is setting a new standard for AI with its Enhanced Large Language Model Agents. This revolutionary technology delivers improved performance, efficiency, and reliability. Stay ahead of the curve with Agent-FLAN’s cutting-edge advancements in AI. #AgentFLAN #AI #innovation

Новый релиз: Интеграция чат-бота в приложение DEVÁ health & beauty

Новый метод адаптации предварительно обученных языковых моделей

Встречайте Swin3D++: улучшенная архитектура ИИ на основе Swin3D

Meet OpenCodeInterpreter: Семейство открытых систем генерации, выполнения и итеративной доработки кода

Новый релиз: Sales Bot научился работать с WordPress

Революционное изменение видеомонтажа: как LAVE и искусственный интеллект демократизируют творческое выражение

Новый инструмент для бизнеса: библиотека DP-Auditorium от Google AI

ByteDance предлагает Magic-Me: новую AI-платформу для генерации видео с индивидуальной идентификацией.

DeAL: Новый подход к выравниванию моделей искусственного интеллекта

Стэнфордский университет провел исследование географической предвзятости в работе ИИ

LAION представляет BUD-E: голосовой ассистент, работающий на игровом ноутбуке с низкой задержкой без необходимости подключения к интернету

Встречайте SPHINX-X: обширная серия многомодальных больших языковых моделей (MLLM), разработанных на основе SPHINX