Neural Magic выпускает полностью квантованную версию модели Llama 3.1 405B с FP8

 Neural Magic Releases Fully Quantized FP8 Version of Meta’s Llama 3.1 405B Model: FP8 Dynamic Quantization and FP8 Static Quantization






Neural Magic Releases Fully Quantized FP8 Version of Meta’s Llama 3.1 405B Model

Нейромагия представила полностью квантованную версию модели Meta’s Llama 3.1 405B в формате FP8

Недавно Neural Magic объявила значительный прорыв в сжатии моделей искусственного интеллекта, представив полностью квантованную версию модели Meta’s Llama 3.1 405B в формате FP8. Это достижение отмечает веху в области искусственного интеллекта, позволяя огромной модели с 405 миллиардами параметров без проблем поместиться на любой 8xH100 или 8xA100 системе без распространенных ошибок нехватки памяти (OOM), с которыми обычно сталкиваются при использовании оригинальных версий FP8 и FP16. Новая модель решает ограничения памяти и увеличивает скорость вывода более чем в 2 раза, используя более быструю память и вычислительные возможности и устраняя необходимость в отдаче процессора или распределении по нескольким узлам.

Ключевые версии модели:

  • Meta-Llama-3.1-405B-Instruct-FP8-dynamic
  • Meta-Llama-3.1-405B-Instruct-FP8

Полностью квантованная версия FP8, Meta-Llama-3.1-405B-Instruct-FP8-dynamic, сохраняет архитектуру Meta-Llama-3.1, предназначенную для чат-ботов на нескольких языках. Однако она ограничена использованием только на английском языке и для законных приложений. Выпущенная в рамках версии 1.0, эта модель была разработана Neural Magic и функционирует под лицензией llama3.1.

Модель достигает значительной эффективности благодаря квантованию весов и активаций до типа данных FP8. Этот процесс уменьшает количество битов на параметр с 16 до 8, уменьшая размер диска и требования к памяти GPU. Следовательно, модель может быть загружена и оценена на одном узле из 8xH100 GPU, вместо необходимости использования нескольких узлов.

Квантование включает симметричное квантование по каналам, где линейное масштабирование на выходном измерении отображает FP8 представления квантованных весов и активаций. Активации квантованы динамически на основе токена. Это было достигнуто с использованием LLM Compressor с 512 последовательностями из UltraChat, обеспечивая оптимальную производительность.

Квантованная модель Neural Magic может быть эффективно развернута с использованием бэкэнда vLLM. Процесс развертывания включает использование библиотек `vllm` и `transformers` в Python, как показано в предоставленных фрагментах кода. Пример демонстрирует интеграцию модели с vLLM, показывая простоту генерации текста с оптимизированной моделью.

Модель была оценена по нескольким бенчмаркам, включая MMLU, ARC-Challenge, GSM-8K, Hellaswag, Winogrande и TruthfulQA. Оценка использовала форк Neural Magic ‘lm-evaluation-harness’ и движок vLLM. Квантованная модель, Meta-Llama-3.1-405B-Instruct-FP8-dynamic, достигла среднего балла 86.55 на бенчмарке OpenLLM, близко отражая оценку неквантованной модели 86.63, демонстрируя практически идеальное восстановление на уровне 99.91%.

Neural Magic предоставляет подробные команды для воспроизведения результатов оценки по различным бенчмаркам. Эти команды иллюстрируют надежность квантованной модели, поддерживающей высокую точность при выполнении различных задач и настройки с небольшим количеством данных. Например, модель достигла восстановления на уровне 99.91% на MMLU (5-shot) и 100.2% на Winogrande (5-shot), подчеркивая ее надежность и точность.

В заключение, выпуск полностью квантованной версии модели Meta’s Llama 3.1 405B в формате FP8 Neural Magic позволяет эффективно уменьшить требования к памяти и увеличить скорость вывода, открывая новые возможности для эффективного и масштабируемого применения искусственного интеллекта. Успех этого усилия по квантованию с минимальной потерей точности подчеркивает потенциал для дальнейших инноваций в этой области, делая мощные модели искусственного интеллекта более доступными и практичными для различных пользователей.

Проверьте FP8 Dynamic Quantization и FP8 Static Quantization. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему Telegram-каналу и группе LinkedIn.

Если вам нравится наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу более чем 47 тыс. участников в ML SubReddit.

Найдите предстоящие вебинары по искусственному интеллекту здесь.

Эта публикация была опубликована в MarkTechPost.



Полезные ссылки: