Оптимизация больших языковых моделей: Muon и Moonlight от Moonshot AI

Оптимизация крупномасштабных языковых моделей требует применения современных методов обучения, которые снижают вычислительные затраты при сохранении высокой производительности. Алгоритмы оптимизации играют ключевую роль в определении эффективности обучения, особенно в больших моделях с большим количеством параметров. Хотя оптимизаторы, такие как AdamW, широко используются, они часто требуют тщательной настройки гиперпараметров и значительных вычислительных ресурсов. Необходимо найти более эффективную альтернативу, обеспечивающую стабильность обучения при снижении вычислительных требований.

Проблема обучения крупных моделей связана с увеличением вычислительных требований и необходимостью эффективного обновления параметров. Многие существующие оптимизаторы проявляют неэффективность при масштабировании, требуя частых корректировок, что удлиняет время обучения. Проблемы стабильности, такие как непостоянные обновления модели, могут дополнительно ухудшать производительность. Жизнеспособное решение должно решать эти задачи, повышая эффективность и обеспечивая надежную динамику обучения без чрезмерных вычислительных затрат или усилий по настройке.

Существующие оптимизаторы, такие как Adam и AdamW, полагаются на адаптивные скорости обучения и затухание весов для улучшения производительности модели. Хотя эти методы показали хорошие результаты в различных приложениях, они становятся менее эффективными при увеличении масштабов моделей. Их вычислительные требования значительно возрастут, что делает их неэффективными для крупномасштабного обучения. Исследователи изучают альтернативные оптимизаторы, предлагающие улучшенную производительность и эффективность, исключая необходимость в обширной настройке гиперпараметров при достижении стабильных и масштабируемых результатов.

Исследователи из Moonshot AI и UCLA представили Muon, оптимизатор, разработанный для преодоления ограничений существующих методов в крупномасштабном обучении. Изначально доказав свою эффективность на маломасштабных моделях, Muon столкнулся с трудностями при масштабировании. Чтобы решить эту проблему, исследователи внедрили две ключевые технологии: затухание весов для повышения стабильности и последовательные обновления корня среднеквадратического отклонения (RMS) для обеспечения однородных корректировок различных параметров. Эти улучшения позволяют Muon эффективно работать без необходимости в обширной настройке гиперпараметров, что делает его мощным выбором для обучения крупномасштабных моделей.

Основываясь на этих достижениях, исследователи представили Moonlight, модель Mixture-of-Experts (MoE) с конфигурациями параметров 3B и 16B. Обученная на 5,7 триллионах токенов, Moonlight использовала Muon для оптимизации производительности при снижении вычислительных затрат. Также была разработана распределенная версия Muon с использованием оптимизации в стиле ZeRO-1, что улучшило эффективность памяти и минимизировало затраты на коммуникацию. Эти усовершенствования обеспечили стабильный процесс обучения, позволив Moonlight достичь высокой производительности с значительно меньшими вычислительными расходами по сравнению с предыдущими моделями.

Оценки производительности показывают, что Moonlight превосходит существующие модели передового уровня сопоставимого масштаба, включая LLAMA3-3B и Qwen2.5-3B. Эксперименты с законами масштабирования показали, что Muon примерно в два раза эффективнее по образцам, чем Adam, что позволяет значительно сократить затраты на обучение при сохранении конкурентоспособных результатов. Moonlight продемонстрировала отличные результаты на нескольких тестах, достигнув 70.0 в MMLU, что выше, чем у LLAMA3-3B (54.75) и Qwen2.5-3B (65.6). Moonlight получила 42.4 в MMLU-pro и 65.2 в BBH в более специализированных тестах, что подчеркивает ее улучшенную производительность. Модель также показала хорошие результаты в TriviaQA с оценкой 66.3, превзойдя все сопоставимые модели.

Moonlight достигла 48.1 в HumanEval и 63.8 в MBPP в задачах, связанных с кодом, обойдя другие модели с аналогичным количеством параметров. В математическом решении она набрала 77.4 в GSM8K и 45.3 в MATH, демонстрируя превосходные способности к решению задач. Moonlight также хорошо справилась с задачами на китайском языке, получив 77.2 в C-Eval и 78.2 в CMMLU, что дополнительно подтверждает ее эффективность в многоязычной обработке. Сильные результаты модели на различных тестах указывают на ее надежную способность к обобщению при значительном снижении вычислительных затрат.

Инновации Muon решают критические проблемы масштабируемости при обучении крупных моделей. Внедрив затухание весов и последовательные обновления RMS, исследователи повысили стабильность и эффективность, позволив Moonlight расширить границы производительности при снижении затрат на обучение. Эти достижения укрепляют Muon как привлекательную альтернативу оптимизаторам на основе Adam, предлагая превосходную эффективность образцов без необходимости в обширной настройке. Открытое распространение Muon и Moonlight также поддерживает исследовательское сообщество, способствуя дальнейшему изучению эффективных методов обучения для крупномасштабных моделей.

Изучите модели здесь. Все заслуги за это исследование принадлежат исследователям этого проекта. Также не стесняйтесь следить за нами в Twitter и не забудьте присоединиться к нашему сообществу ML SubReddit с более чем 80 тысячами участников.

Посмотрите, как технологии искусственного интеллекта могут трансформировать ваш подход к работе, например: Исследователи из Moonshot AI представили Muon и Moonlight: оптимизация крупномасштабных языковых моделей с эффективными методами обучения.

Изучите, какие процессы можно автоматизировать. Найдите моменты во взаимодействии с клиентами, где искусственный интеллект может добавить наибольшую ценность.

Определите важные ключевые показатели эффективности, чтобы убедиться, что ваши инвестиции в ИИ действительно положительно влияют на бизнес.

Выберите инструменты, которые соответствуют вашим потребностям и позволяют настраивать их в соответствии с вашими целями.

Начните с небольшого проекта, соберите данные о его эффективности, а затем постепенно расширяйте использование ИИ в своей работе.

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram.

Посмотрите практический пример решения на основе ИИ: бот по продажам, разработанный для автоматизации клиентских разговоров круглосуточно и управления взаимодействиями на всех этапах пути клиента.