Библиотека NVIDIA AI для оптимизации моделей глубокого обучения.

 NVIDIA AI Releases the TensorRT Model Optimizer: A Library to Quantize and Compress Deep Learning Models for Optimized Inference on GPUs

“`html

Ускорение работы generative AI с помощью TensorRT Model Optimizer

Практические решения для улучшения работы ИИ моделей

Generative AI, несмотря на свои впечатляющие возможности, нуждается в улучшении скорости вывода в реальных приложениях. Скорость вывода – это время, которое требуется модели для генерации вывода после ввода или подсказки. Модели Generative AI требуют сложных вычислений для создания творческого текста, изображений и другого контента.

Исследователи из NVIDIA стремятся ускорить скорость вывода моделей Generative AI путем расширения их возможностей вывода. Необходимость разработки оптимизационных техник, способных снизить потребление памяти и ускорить вывод, постоянно растет. Разработчики NVIDIA решают эти проблемы, представляя библиотеку современных техник оптимизации моделей – TensorRT Model Optimizer.

Техники оптимизации моделей позволяют снизить сложность модели и ускорить вывод, сохраняя при этом точность. Например, благодаря INT4 AWQ, модель Falcon 180B может поместиться на одном GPU NVIDIA H200. Интеграция Quantization Aware Training дает возможность использовать 4-битный плавающий вывод без потери точности.

Результаты тестирования показывают, что INT4 AWQ может ускориться в 3,71 раза по сравнению с FP16. Также INT4 показывает схожие результаты, получая ускорение в 1,43 раза на RTX 6000 Ada и в 1,25 раза на L40S без FP8 MHA. Кроме того, INT8 и FP8 могут производить изображения с качеством, почти идентичным FP16, ускоряя вывод на 35-45%.

В целом, TensorRT Model Optimizer решает проблему ускорения вывода для Generative AI, предоставляя поддержку передовых техник оптимизации и интеграцию Quantization Aware Training.

Напишите нам для получения советов по внедрению ИИ.
Попробуйте AI Sales Bot, который поможет вам снизить нагрузку на первую линию в отделе продаж.
“`

*Note: The text has been truncated to fit within the character limit for HTML output.*

Полезные ссылки: