ByteDance представляет QuaDMix: новый подход к оптимизации качества и разнообразия данных для предобучения LLM

ByteDance представляет QuaDMix: Упрощенная система ИИ для повышения качества данных и разнообразия в предобучении LLM

Эффективность предобучения и обобщение больших языковых моделей (LLM) значительно зависят от качества и разнообразия обучающего корпуса. Традиционные методы подготовки данных часто рассматривают качество и разнообразие как отдельные цели, применяя фильтрацию качества, а затем балансировку по доменам. Такой последовательный подход игнорирует сложные взаимосвязи между этими факторами. Данные высокого качества часто имеют доменные предвзятости, в то время как разнообразные наборы данных могут снижать качество. В условиях фиксированных бюджетов на обучение существует критическая необходимость одновременно оптимизировать обе эти составляющие для максимизации производительности модели. Однако определение и совместная оптимизация качества и разнообразия остаются непростыми задачами.

Что такое QuaDMix?

ByteDance представляет QuaDMix, единый фреймворк для выбора данных, который систематически балансирует качество и разнообразие во время предобучения LLM. QuaDMix оценивает каждую выборку данных на основе нескольких критериев качества и классификаций доменов, определяя вероятность её выбора через параметризованную функцию. Фреймворк использует эксперименты с прокси-моделями в сочетании с регрессией на основе LightGBM для прогнозирования производительности, позволяя эффективно оптимизировать параметры без масштабного обучения.

Этапы работы QuaDMix

QuaDMix работает в три основных этапа: извлечение признаков, агрегация качества и выборка с учетом качества и разнообразия. Сначала каждый документ аннотируется метками домена и несколькими оценками качества. Эти оценки нормализуются и объединяются с использованием доменно-специфичных параметров для вычисления агрегированной оценки качества. Документы затем выбираются согласно функции на основе сигмоиды, которая приоритизирует более качественные образцы, одновременно поддерживая баланс по доменам через параметризованные управления.

Примечания к оптимизации

Оптимизация осуществляется путем обучения тысяч прокси-моделей с различными параметрами. Модель регрессии, обученная на этих прокси-экспериментах, предсказывает результаты производительности, что позволяет выявить оптимальные конфигурации выборки. Этот метод обеспечивает структурированный подход к исследованию многомерного пространства параметров, делая выбор данных более соответствующим предполагаемым задачам.

Преимущества QuaDMix

  • Единая оптимизация качества данных и разнообразия доменов.
  • Адаптивность к требованиям конкретных задач через выбор целей оценки прокси.
  • Выборка без необходимости полного переобучения модели.
  • Устойчивое улучшение производительности без увеличения вычислительных затрат.

Результаты и выводы экспериментов

Валидационные эксперименты проводились с использованием набора данных RefinedWeb, на котором обучались модели с 530 миллионами параметров с нуля. QuaDMix сравнивался с несколькими базовыми методами, включая случайный выбор, Fineweb-edu, AskLLM, DCLM, DSIR и RegMix. QuaDMix последовательно превосходил эти методы, достигая средней оценки 39.5% по девяти различным бенчмаркам.

Ключевые наблюдения

  • Стратегии совместной оптимизации неизменно превосходят методы, сосредоточенные на качестве или разнообразии.
  • Производительность прокси-моделей сильно коррелирует с результатами масштабных моделей, что подтверждает эффективность подхода.
  • Смешивание данных, оптимизированное для конкретных задач, дополнительно улучшает производительность.
  • Объединение нескольких критериев качества снижает предвзятости и улучшает общую устойчивость модели.
  • Расширение разнообразия токенов за пределами определенного порога приводит к уменьшающимся возвратам, подчеркивая важность отобранного качества над количеством.

Заключение

QuaDMix предлагает принципиальный подход к выбору данных для предобучения LLM, решая давнюю задачу одновременной оптимизации качества и разнообразия данных. Интегрируя агрегацию качества и выборку с учетом доменов в едином фреймворке и используя оптимизацию на основе прокси, QuaDMix устанавливает масштабируемую методологию для повышения эффективности предобучения LLM. Хотя существуют возможности для будущих улучшений, QuaDMix представляет собой значительный шаг к более системным и эффективным стратегиям подготовки данных для разработки моделей большого масштаба.

Применение ИИ в бизнесе

Изучите, как технологии искусственного интеллекта могут преобразовать ваш подход к работе. Рассмотрите возможность автоматизации процессов и выявления моментов взаимодействия с клиентами, где ИИ может добавить максимальную ценность. Определите ключевые показатели эффективности (KPI), чтобы убедиться, что ваши инвестиции в ИИ приносят положительный эффект. Выбирайте инструменты, соответствующие вашим потребностям, и настраивайте их под свои цели. Начните с небольшого проекта, собирайте данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.

Контакт и ресурсы

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей в области ИИ, подписывайтесь на наш Telegram.

Посмотрите практический пример решения на основе ИИ: продажный бот, предназначенный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.

AI Technology

Новости в сфере искусственного интеллекта