МегаМасштабный Инфер: Эффективное Обслуживание Моделей MoE с Помощью Дисагрегированного Параллелизма

Введение в MegaScale-Infer от ByteDance

Большие языковые модели, основанные на архитектуре трансформеров, используются в таких приложениях, как чат, генерация кода и поиск. Однако их масштабирование с миллиардами параметров создает сложности в эффективной обработке данных. Для успешного обслуживания таких моделей необходимо тщательно организовать ресурсы памяти, связи и вычислений.

Проблема неэффективного использования ресурсов

Сложность заключается в том, как разреженность, возникающая в моделях Mixture-of-Experts (MoE), влияет на производительность вывода. Эти модели активируют лишь часть сетей для обработки входных данных, что снижает вычислительную нагрузку, но приводит к недостаточному использованию аппаратного обеспечения. Во время вывода модули внимания становятся узким местом из-за частого доступа к памяти, а модули FFN остаются бездействующими, что приводит к значительному снижению использования GPU и увеличению операционных расходов.

Решение от ByteDance и Пекинского университета

Исследователи разработали систему MegaScale-Infer, которая переосмысляет архитектуру обслуживания MoE. Вместо обслуживания модели как единого блока, внимание и модули FFN разделяются и размещаются на разных GPU. Это позволяет настраивать стратегии масштабирования и параллелизма в зависимости от потребностей каждого модуля. Модули внимания, требующие много памяти, дублируются для агрегирования запросов, а модули FFN масштабируются с использованием экспертного параллелизма. Система также поддерживает разнородные развертывания GPU, что позволяет назначать более экономичные GPU для задач внимания и оптимизированные для вычислений для FFN.

Оптимизация производительности

Для дальнейшей оптимизации MegaScale-Infer использует стратегию параллелизма с чередованием пакетов. Запросы разбиваются на более мелкие микропакеты, которые чередуются между модулями внимания и FFN, что обеспечивает высокую загрузку компонентов. Система определяет оптимальное количество микропакетов для поддержания высокой загрузки, учитывая время вычислений и задержки связи.

Результаты тестирования

MegaScale-Infer была протестирована на нескольких крупных моделях MoE, включая Mixtral 8×22B и DBRX. В экспериментах с использованием GPU NVIDIA Ampere система показала увеличение пропускной способности декодирования на 2.56× по сравнению с vLLM и на 1.28× по сравнению с TensorRT-LLM. На разнородных кластерах система достигла до 3.24× и 1.86× более высокой пропускной способности на доллар по сравнению с базовыми показателями.

AI Technology Image

Практические рекомендации для бизнеса

Рассмотрите возможность автоматизации процессов, где искусственный интеллект может добавить наибольшую ценность. Определите ключевые показатели эффективности (KPI), чтобы убедиться, что ваши инвестиции в ИИ приносят положительный результат. Выбирайте инструменты, которые соответствуют вашим потребностям и позволяют настраивать их под ваши цели. Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.

Контакты и ресурсы

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей в области ИИ, подписывайтесь на наш Telegram.

Посмотрите практический пример решения на базе ИИ: продажный бот, предназначенный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.

Новости в сфере искусственного интеллекта