Новые модели языка Minitron 4B и 8B от Nvidia: ускорение обучения на 40 раз с помощью обрезки и сжатия.

 Nvidia AI Releases Minitron 4B and 8B: A New Series of Small Language Models that are 40x Faster Model Training via Pruning and Distillation

“`html

Большие модели языка (LLM), разработанные для понимания и генерации человеческого языка, нашли применение в различных областях, таких как машинный перевод, анализ настроений и разговорный ИИ.

LLM характеризуются обширными данными обучения и миллиардами параметров, что затрудняет их разработку и развертывание из-за высоких вычислительных требований.

Основные проблемы в этой области:

Ресурсоемкость обучения различных вариантов LLM с нуля, высокие затраты на обучение и развертывание моделей, сложность достижения баланса между размером модели, стоимостью обучения и производительностью.

Решения:

Применение методов обрезки и методов дистилляции знаний для уменьшения затрат на обучение и улучшения производительности моделей.

Практические решения и ценность:

Исследователи из NVIDIA представили новый подход к обрезке и повторному обучению LLM, который позволяет значительно снизить затраты на обучение и время. Они разработали семейство моделей Minitron и предоставили их для общественного использования на платформе Huggingface.

Предложенный метод начинается с существующей большой модели и обрезает её для создания более эффективных вариантов. Затем применяется повторное обучение с использованием метода дистилляции знаний, что позволяет сохранить производительность оригинальной модели и существенно уменьшить затраты на обучение.

Этот подход позволил сократить размер модели в 2-4 раза, сэкономить до 40 раз обучающих токенов и улучшить производительность на 16% по сравнению с моделями, обученными с нуля. Модели Minitron демонстрируют сравнимую производительность с другими известными моделями и превосходят современные методы сжатия из существующей литературы.

Этот инновационный подход открывает путь к более доступным и эффективным приложениям обработки естественного языка, позволяя развертывать LLM на различных масштабах без запредельных затрат.

Подробнее о статье и моделях можно узнать на официальном сайте NVIDIA.

Все права на исследование принадлежат исследователям проекта.

Не забудьте следить за новостями в нашем Twitter и присоединиться к нашему Telegram каналу и группе в LinkedIn.

Присоединяйтесь к нашему сообществу в Reddit.

Узнайте о предстоящих вебинарах по ИИ здесь.

Эту статью можно найти на MarkTechPost.

Если ваша компания хочет использовать ИИ для развития и оставаться в числе лидеров, обратитесь к нам для консультации и внедрения ИИ-решений.

Попробуйте AI Sales Bot, который поможет вам в продажах.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab.


“`

Полезные ссылки: