Введение в ReZero
Исследователи из Menlo представили ReZero — новую структуру обучения с подкреплением, которая поощряет повторные запросы для улучшения поиска и рассуждений в системах, основанных на извлечении информации.
Проблема взаимодействия LLM с системами извлечения
Современные большие языковые модели (LLM) могут интегрировать внешние знания в свои процессы рассуждения. Однако, когда LLM генерирует неудачный запрос, система часто не имеет стратегии для восстановления, что приводит к неправильным результатам. Это ограничивает их эффективность в сложных задачах, где понимание улучшается через пробу и ошибку.
Решения для улучшения взаимодействия
Существуют различные инструменты, такие как модели вознаграждения процесса (PRM) и модели объяснения процесса (PEM), которые поощряют промежуточные улучшения рассуждений. Однако они не поощряют повторные попытки после неудачи. ReZero решает эту проблему, обучая модели настойчивости в поиске информации.
Как работает ReZero
ReZero поощряет повторные запросы, предоставляя положительную обратную связь за попытки исправить неудачные поиски. Это отражает человеческое поведение: если первоначальный поиск не удался, разумный подход — изменить стратегию и попробовать снова.
Результаты и достижения
Команда выпустила две версии модели, обученной с использованием ReZero, на платформе Hugging Face. Модель достигла пиковой точности 46.88% при 250 шагах обучения, что подтверждает эффективность вознаграждения за повторные попытки.
Ключевые выводы из ReZero
- Улучшает возможности поиска LLM, поощряя поведение повторной попытки.
- Использует обучение с подкреплением на основе Group Relative Policy Optimization (GRPO).
- Включает вознаграждения за правильность, формат, действия повторной попытки и стратегию поиска.
- Вознаграждения предоставляются только при получении действительного конечного ответа.
- Достигнута пиковая точность 46.88% с вознаграждением за повторные попытки.
Практическое применение AI в бизнесе
Изучите, как технологии искусственного интеллекта могут трансформировать ваш подход к работе. Определите процессы, которые можно автоматизировать, и моменты взаимодействия с клиентами, где AI может добавить наибольшую ценность.
Контактная информация
Если вам нужна помощь в управлении AI в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей AI, подписывайтесь на наш Telegram.
Пример решения на основе AI
Посмотрите на практический пример решения на основе AI: бот для продаж от itinai.ru/aisales, предназначенный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.