
Большие языковые модели (LLMs) сталкиваются с серьезными проблемами в оптимизации методов постобучения, особенно в балансировке между контролируемым дообучением (SFT) и методами обучения с подкреплением (RL). Исследования показывают, что модели могут достигать согласованности задач и улучшенных возможностей рассуждения без обширного SFT, что ставит под сомнение традиционные последовательные методы постобучения.
Исследования из Технологического института Джорджии предлагают всестороннее изучение оптимального распределения бюджета на обучение между SFT и дообучением на основе предпочтений (PFT) в LLM. Это исследование охватывает четыре различные задачи, несколько размеров моделей и различные затраты на аннотацию данных.
Результаты показывают, что оптимальное распределение бюджета на обучение между методами SFT и PFT имеет решающее значение. Правильное соотношение данных позволяет достигать производительности, в 2-5 раз превышающей производительность при неэффективном распределении. Использование 5K примеров с 25% выделения на SFT для задач, таких как резюмирование и помощь, соответствует производительности 20K примеров с 75% выделения на SFT.
В заключение, данное исследование предоставляет важные сведения о том, как оптимизировать постобучение LLM в условиях ограниченных ресурсов, особенно в отношении взаимодействия между SFT и PFT. Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru.
Посмотрите практический пример решения на основе ИИ: бот для продаж, разработанный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.