Эффективное развертывание больших моделей трансформера: стратегии масштабируемого и быстрого вывода

 Efficient Deployment of Large-Scale Transformer Models: Strategies for Scalable and Low-Latency Inference

“`html

Эффективное развертывание крупномасштабных моделей трансформера: стратегии масштабируемого и низколатентного вывода

Масштабирование моделей на основе трансформера до более чем 100 миллиардов параметров привело к прорывным результатам в обработке естественного языка. Эти большие языковые модели отлично себя проявляют в различных приложениях, но их эффективное развертывание представляет вызовы из-за последовательной природы генеративного вывода, где вычисление каждого токена зависит от предшествующих токенов. Это требует тщательной параллельной организации и оптимизации памяти. Исследование выделяет ключевые инженерные принципы для эффективного обслуживания крупномасштабных моделей трансформера в различных производственных средах, обеспечивая масштабируемость и низкую задержку вывода.

Оптимизация вывода для крупных моделей трансформера

Исследователи Google изучают эффективный генеративный вывод для крупных моделей трансформера, сосредотачиваясь на жестких целях задержки и длинных последовательностях. Они разработали аналитическую модель для оптимизации многомерных методов разделения для срезов TPU v4 и реализовали оптимизацию на низком уровне. Это позволило достичь превосходной задержки и компромиссов между использованием FLOPS модели (MFU) для моделей с более чем 500 миллиардами параметров, превзойдя бенчмарки FasterTransformer. Используя многозапросное внимание, они масштабировали длины контекста до 32× больше. Их модель PaLM 540B достигла задержки в 29 мс на токен с квантованием int8 и 76% использования MFU, поддерживая длину контекста в 2048 токенов, выделяя практические применения в чат-ботах и высокопроизводительном офлайн-выводе.

Эффективные стратегии для развертывания крупных моделей

Предыдущие работы по эффективному разделению для обучения крупных моделей включают NeMo Megatron, GSPMD и Alpa, которые используют параллелизм тензоров и конвейерную параллельность с оптимизацией памяти. FasterTransformer устанавливает бенчмарки для вывода на нескольких GPU и узлах, в то время как DeepSpeed Inference использует ZeRO для выгрузки на CPU и память NVMe. EffectiveTransformer уменьшает заполнение, упаковывая последовательности. В отличие от них, данное исследование разрабатывает стратегии разделения на основе аналитических компромиссов. Для улучшения эффективности вывода подходы включают в себя эффективные слои внимания, дистилляцию, обрезку и квантование. Исследование включает квантование модели для ускорения вывода и предлагает, что его техники могут дополнить другие методы сжатия.

Оптимизация производительности крупных моделей

Увеличение размеров моделей улучшает их возможности, но увеличивает задержку, пропускную способность и стоимость вывода MFU. Ключевые метрики включают задержку (время предварительной загрузки и декодирования), пропускную способность (обрабатываемые/генерируемые токены в секунду) и MFU (наблюдаемая против теоретической пропускной способности). Большие модели сталкиваются с проблемами памяти и вычислений, при малых размерах партий преобладают времена загрузки весов, а при больших – кэш KV. Эффективный вывод требует балансирования низкой задержки и высокой пропускной способности через стратегии, такие как 1D/2D разделение весов. Механизмы внимания влияют на использование памяти, многозапросное внимание уменьшает размер кэша KV, но увеличивает коммуникационные издержки.

Исследование моделей PaLM

В исследовании моделей PaLM были оценены такие техники, как многозапросное внимание и параллельные слои внимания/прямого распространения с использованием JAX и XLA на чипах TPU v4. Для модели PaLM 540B улучшение эффективности разделения было достигнуто путем увеличения внимания к заполнению. Были протестированы различные стратегии разделения: 1D и 2D расположение весов и собранные веса, причем 2D показал лучшие результаты при более высоких значениях чипов. Многозапросное внимание позволило использовать более длинные контексты с меньшим использованием памяти по сравнению с многоголовым вниманием. Исследование продемонстрировало, что оптимизация разделения на основе размера партии и фазы (предварительная загрузка против генерации) критична для балансирования эффективности и задержки.

Демократизация доступа к крупным моделям трансформера

Большие модели трансформера революционизируют различные области, но для демократизации их доступа требуются значительные достижения. Это исследование исследует масштабирование рабочих нагрузок по выводу трансформера и предлагает практические методы разделения, чтобы удовлетворить строгие требования к задержке, особенно для моделей с более чем 500 миллиардами параметров. Оптимальные задержки были достигнуты путем масштабирования вывода на 64+ чипах. Многозапросное внимание с эффективным разделением уменьшает затраты памяти для вывода с длинным контекстом. Хотя масштабирование улучшает производительность, количество операций с плавающей запятой и объем коммуникации остаются ограничивающими факторами. Техники, такие как разреженные архитектуры и адаптивные вычисления, которые уменьшают количество операций с плавающей запятой на токен и объем коммуникации между чипами, обещают дальнейшие улучшения стоимости и задержки.

Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему Telegram каналу и группе LinkedIn.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему SubReddit.

Источник: MarkTechPost.

“`

Полезные ссылки: