Оптимизация распределения данных для обучения в крупных языковых моделях: Сравнение супервайзинга и предпочтительного дообучения

Большие языковые модели (LLMs) сталкиваются с серьезными проблемами в оптимизации методов постобучения, особенно в балансировке между контролируемым дообучением (SFT) и методами обучения с подкреплением (RL). Исследования показывают, что модели могут достигать согласованности задач и улучшенных возможностей рассуждения без обширного SFT, что ставит под сомнение традиционные последовательные методы постобучения.

Исследования из Технологического института Джорджии предлагают всестороннее изучение оптимального распределения бюджета на обучение между SFT и дообучением на основе предпочтений (PFT) в LLM. Это исследование охватывает четыре различные задачи, несколько размеров моделей и различные затраты на аннотацию данных.

Результаты показывают, что оптимальное распределение бюджета на обучение между методами SFT и PFT имеет решающее значение. Правильное соотношение данных позволяет достигать производительности, в 2-5 раз превышающей производительность при неэффективном распределении. Использование 5K примеров с 25% выделения на SFT для задач, таких как резюмирование и помощь, соответствует производительности 20K примеров с 75% выделения на SFT.

В заключение, данное исследование предоставляет важные сведения о том, как оптимизировать постобучение LLM в условиях ограниченных ресурсов, особенно в отношении взаимодействия между SFT и PFT. Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru.

Посмотрите практический пример решения на основе ИИ: бот для продаж, разработанный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.