Революция в LLM: Как ReZero обучает модели повторным запросам для улучшения поиска информации

Введение в ReZero

Исследователи из Menlo представили ReZero — новую структуру обучения с подкреплением, которая поощряет повторные запросы для улучшения поиска и рассуждений в системах, основанных на извлечении информации.

Проблема взаимодействия LLM с системами извлечения

Современные большие языковые модели (LLM) могут интегрировать внешние знания в свои процессы рассуждения. Однако, когда LLM генерирует неудачный запрос, система часто не имеет стратегии для восстановления, что приводит к неправильным результатам. Это ограничивает их эффективность в сложных задачах, где понимание улучшается через пробу и ошибку.

Решения для улучшения взаимодействия

Существуют различные инструменты, такие как модели вознаграждения процесса (PRM) и модели объяснения процесса (PEM), которые поощряют промежуточные улучшения рассуждений. Однако они не поощряют повторные попытки после неудачи. ReZero решает эту проблему, обучая модели настойчивости в поиске информации.

Как работает ReZero

ReZero поощряет повторные запросы, предоставляя положительную обратную связь за попытки исправить неудачные поиски. Это отражает человеческое поведение: если первоначальный поиск не удался, разумный подход — изменить стратегию и попробовать снова.

Результаты и достижения

Команда выпустила две версии модели, обученной с использованием ReZero, на платформе Hugging Face. Модель достигла пиковой точности 46.88% при 250 шагах обучения, что подтверждает эффективность вознаграждения за повторные попытки.

Ключевые выводы из ReZero

  • Улучшает возможности поиска LLM, поощряя поведение повторной попытки.
  • Использует обучение с подкреплением на основе Group Relative Policy Optimization (GRPO).
  • Включает вознаграждения за правильность, формат, действия повторной попытки и стратегию поиска.
  • Вознаграждения предоставляются только при получении действительного конечного ответа.
  • Достигнута пиковая точность 46.88% с вознаграждением за повторные попытки.

Практическое применение AI в бизнесе

Изучите, как технологии искусственного интеллекта могут трансформировать ваш подход к работе. Определите процессы, которые можно автоматизировать, и моменты взаимодействия с клиентами, где AI может добавить наибольшую ценность.

Контактная информация

Если вам нужна помощь в управлении AI в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей AI, подписывайтесь на наш Telegram.

Пример решения на основе AI

Посмотрите на практический пример решения на основе AI: бот для продаж от itinai.ru/aisales, предназначенный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.

AI Image

Новости в сфере искусственного интеллекта