Ученые из Принстонского университета и Meta AI представляют “Lory”: полностью дифференцируемую модель MoE, разработанную для предварительного обучения авторегрессивной языковой модели.

 Researchers from Princeton and Meta AI Introduce ‘Lory’: A Fully-Differentiable MoE Model Designed for Autoregressive Language Model Pre-Training

“`html

Введение в Mixture-of-Experts (MoE) архитектуры

MoE архитектуры используют разреженную активацию для масштабирования размеров моделей, сохраняя при этом высокую эффективность обучения и вывода. Однако обучение сети маршрутизаторов создает вызов оптимизации недифференцируемой, дискретной цели, несмотря на эффективное масштабирование моделей MoE. Недавно была представлена архитектура MoE под названием SMEAR, которая является полностью недифференцируемой и плавно объединяет экспертов в пространстве параметров. SMEAR очень эффективен, но его эффективность ограничена масштабированием моделей на небольших экспериментах по тонкой настройке на классификационных задачах.

Применение разреженных MoE моделей

Разреженные MoE модели стали полезным методом для эффективного масштабирования размеров моделей. Архитектура разреженной MoE адаптирована для моделей трансформера для достижения лучшей производительности в машинном переводе. Традиционные MoE модели обучаются направлять входные данные в экспертные модули, что приводит к недифференцируемой, дискретной проблеме обучения принятия решений. Кроме того, для обучения существующих моделей используются стратегии маршрутизации top-1 или top-2 на основе разработанной цели балансировки нагрузки. Обучение MoE моделей усложняется проблемой нестабильности обучения, недостаточной специализации экспертов и неэффективного обучения.

Метод Lory для масштабирования MoE архитектур

Исследователи из Принстонского университета и Meta AI представили метод Lory для масштабирования MoE архитектур для предварительного обучения авторегрессивных языковых моделей. Lory состоит из двух основных техник: (a) стратегия маршрутизации случайного сегмента, эффективная в операциях объединения экспертов, сохраняя авторегрессивную природу языковых моделей, и (b) метод пакетной обработки данных на основе сходства, поддерживающий специализацию экспертов путем создания групп для похожих документов во время обучения. Кроме того, модели Lory превосходят современные MoE модели благодаря маршрутизации на уровне токенов вместо маршрутизации на уровне сегментов.

Результаты и преимущества метода Lory

Метод Lory показывает выдающиеся результаты по различным факторам:

  • Эффективность обучения и сходимость: Lory достигает эквивалентного уровня потерь с менее чем половиной обучающих токенов для моделей 0.3B и 1.5B, что указывает на лучшую производительность при том же вычислительном обучении.
  • Языковое моделирование: Предложенные MoE модели превосходят плотную базовую модель во всех областях, что приводит к уменьшению перплексии. Например, по сравнению с плотной моделью 0.3B, модели 0.3B/32E достигают относительного улучшения на 13.9% в категории Books.
  • Подзадачи: Модель 0.3B/32E достигает среднего увеличения производительности на +3.7% в рассуждениях о здравом смысле, +3.3% в понимании чтения, +1.5% в понимании чтения и +11.1% в классификации текста.

Выводы и рекомендации

Исследователи из Принстонского университета и Meta AI предложили метод Lory, полностью дифференцируемую MoE модель, разработанную для предварительного обучения авторегрессивных языковых моделей. Метод Lory состоит из двух основных техник: стратегии маршрутизации случайного сегмента и метода пакетной обработки данных на основе сходства. Предложенный метод превосходит свою плотную аналогию в языковом моделировании и подзадачах, а обученные эксперты высоко специализированы и способны улавливать информацию на уровне домена. Дальнейшая работа включает масштабирование Lory и интеграцию маршрутизации на уровне токенов и сегментов путем разработки эффективных методов декодирования для Lory.

Подробнее ознакомьтесь с статьей. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу в Reddit.

Источник: Researchers from Princeton and Meta AI Introduce ‘Lory’: A Fully-Differentiable MoE Model Designed for Autoregressive Language Model Pre-Training

“`

Полезные ссылки: