NVIDIA представляет CLIMB: Фреймворк для итеративной оптимизации смесей данных в предварительном обучении языковых моделей
Проблемы создания эффективных смесей данных для предварительного обучения
С увеличением размеров и возможностей больших языковых моделей (LLM) выбор данных для предварительного обучения становится ключевым фактором, влияющим на производительность. Большинство LLM обучаются на больших веб-данных, таких как Common Crawl, которые обеспечивают широкий охват, но не имеют явных меток домена. Это создает трудности в курировании смесей, которые балансируют общеизвестные знания и специализированную экспертизу.
Ручное курирование наборов данных, как в случае с The Pile, является трудоемким процессом и плохо масштабируется. Нелинейная связь между составом данных и производительностью модели делает определение оптимальных пропорций доменных данных нетривиальной задачей. Эти ограничения подчеркивают необходимость автоматизированных, масштабируемых и адаптивных методов выбора данных.
CLIMB: Итеративный фреймворк для обнаружения смесей данных
Чтобы решить эту проблему, исследователи NVIDIA предлагают CLIMB — CLustering-based Iterative Data Mixture Bootstrapping — фреймворк, который автоматизирует процесс обнаружения и уточнения смесей данных для предварительного обучения языковых моделей. CLIMB сочетает в себе неконтролируемую кластеризацию с итеративной оптимизацией для выявления смесей, которые хорошо подходят для общих или специализированных целей.
Процесс начинается с встраивания больших объемов текстовых данных в семантическое пространство с использованием предварительно обученных кодировщиков. Затем применяется кластеризация K-средних для организации данных в согласованные группы, которые обрезаются и объединяются на основе качества контента и избыточности. Это формирует основу для построения кандидатных смесей.
После этого CLIMB использует прокси-модели для оценки выборки смесей и подбирает регрессионный предсказатель (например, LightGBM) для оценки производительности смеси. Итеративная процедура бутстрэпинга постепенно уточняет пространство выборки, приоритизируя высокопроизводительные конфигурации.
Технические детали и проектные соображения
Процесс оптимизации рассматривается как двухуровневая задача: на нижнем уровне прокси-модели обучаются на кандидатных смесях, а на верхнем уровне обучается предсказатель для приближения результатов производительности. Этот предсказатель направляет дальнейшую выборку и обрезку, позволяя эффективно исследовать пространство смесей.
CLIMB поддерживает разреженность весов смесей, способствуя выявлению компактных, релевантных данным подмножеств. Использование кластеризации на основе встраиваний — вместо признаков на уровне токенов — обеспечивает семантическую согласованность в кластерах. Итеративное уточнение структурируется для балансировки широты (охват пространства поиска) и глубины (предсказательная точность), и абляционные исследования подтверждают, что тщательное распределение вычислительных ресурсов между итерациями улучшает сходимость и конечную производительность.
Эмпирическая оценка и наблюдения
CLIMB была оценена по нескольким задачам общего рассуждения, включая PIQA, ARC (Easy и Challenge), HellaSwag и WinoGrande. Модель с 1 млрд параметров, обученная на смесях, открытых CLIMB, достигла средней точности 60,41%, что превосходит сопоставимые базовые модели, такие как DoReMi и RegMix.
При расширении до 400 миллиардов токенов предварительного обучения эта модель на 1 миллиард параметров превзошла Llama-3.2-1B на 2,0% в широком наборе тестов. Аналогично, в категории моделей с менее чем 500 млн параметров предварительное обучение на основе CLIMB дало стабильные улучшения по сравнению с моделями, такими как SmolLM и TinyLlama.
Заключение
CLIMB представляет собой систематический подход к оптимизации смесей данных в предварительном обучении LLM. Сочетая семантическую кластеризацию с итеративным поиском на основе прокси, он избегает зависимости от ручных аннотаций или статических эвристик. Метод поддерживает как общие, так и специализированные цели обучения и адаптируется к различным вычислительным и данным ограничениям.
Этот фреймворк способствует продолжающимся усилиям в области data-centric AI, предлагая масштабируемую и обоснованную альтернативу ручным процессам обработки данных. Его эмпирическая производительность подчеркивает важность оптимизации смесей данных для максимизации полезности модели, особенно при фиксированных ресурсах.
Свяжитесь с нами
Если вам нужна помощь в управлении AI в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей AI, подписывайтесь на наш Telegram здесь.
Посмотрите на практический пример решения на базе AI: бот для продаж с сайта itinai.ru/aisales, разработанный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.