Обучение моделей языкового моделирования для улучшения собственных ответов на нескольких последовательных ходах.

 Recursive IntroSpEction (RISE): A Machine Learning Approach for Fine-Tuning LLMs to Improve Their Own Responses Over Multiple Turns Sequentially

“`html

Recursive IntroSpEction (RISE): Подход машинного обучения для тонкой настройки LLMs для улучшения их собственных ответов последовательно на нескольких поворотах

Большие языковые модели (LLMs) привлекли значительное внимание как мощные инструменты для различных задач, но их потенциал в качестве агентов общего назначения представляет уникальные вызовы. Для эффективного функционирования в качестве агентов LLMs должны выходить за рамки простого создания правдоподобных текстовых завершений. Они должны проявлять интерактивное, направленное на цель поведение для выполнения конкретных задач. Для этого необходимы две критические способности: активный поиск информации о задаче и принятие решений, которые можно улучшить через “размышления” и проверку во время вывода. Текущие методологии испытывают трудности в достижении этих способностей, особенно в сложных задачах, требующих логического рассуждения.

Подход RISE

Исследователи из Университета Карнеги-Меллона, Университета Калифорнии в Беркли и MultiOn представляют RISE (Recursive IntroSpEction) – уникальный подход к улучшению возможностей самосовершенствования LLMs. Этот метод использует итеративную процедуру тонкой настройки, которая формирует одноповоротные подсказки как многоповоротные марковские процессы принятия решений. Путем включения принципов онлайн имитационного обучения и обучения с подкреплением RISE разрабатывает стратегии для сбора многоповоротных данных и обучения. Этот подход позволяет LLMs рекурсивно обнаруживать и исправлять ошибки в последующих итерациях, способность, которая ранее считалась трудной для достижения.

Результаты RISE

RISE продемонстрировал значительное улучшение производительности на нескольких показателях. На GSM8K RISE увеличил производительность базовой модели LLama2 на пять поворотов на 15,1% и 17,7% после одной и двух итераций соответственно, без использования оракула. На MATH были отмечены улучшения на 3,4% и 4,6%. Эти приросты превышают те, которые достигли другие методы, включая только подсказочное самосовершенствование и стандартную тонкую настройку на оракульных данных. Особенно следует отметить, что RISE превосходит выбор нескольких ответов параллельно, указывая на его способность действительно исправлять ошибки на последовательных поворотах.

RISE представляет уникальный подход для тонкой настройки больших языковых моделей для улучшения их ответов на нескольких поворотах. Путем преобразования одноповоротных задач в многоповоротные марковские процессы принятия решений, RISE использует итеративное обучение с подкреплением на данных в пределах политики, используя экспертное или самогенерируемое наблюдение. Метод значительно улучшает способности самосовершенствования 7B моделей в задачах рассуждения, превосходя предыдущие подходы. Результаты показывают последовательное улучшение производительности на различных базовых моделях и задачах, демонстрируя действительное последовательное исправление ошибок.

Подробнее с документом можно ознакомиться здесь. Вся заслуга за это исследование принадлежит его авторам. Также не забудьте подписаться на наш Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn.

Если вам нравится наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу в Reddit.

Наши предстоящие вебинары по ИИ можно найти здесь.

Попробуйте AI Sales Bot здесь. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

Если вам нужны советы по внедрению ИИ, пишите нам на сюда. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

“`

Полезные ссылки: