Улучшение использования инструментов и эффективности рассуждений с помощью обучения с подкреплением
Недавние достижения в области больших языковых моделей (LLMs) показывают их способность выполнять сложные задачи рассуждения и эффективно использовать внешние инструменты, такие как поисковые системы. Однако остается значительная проблема: как научить модели определять, когда полагаться на внутренние знания, а когда выполнять поиск. Хотя методы на основе подсказок могут направлять поведение модели, LLM часто испытывают трудности с тонкими решениями, такими как распознавание, когда первоначальный поиск дал неточные результаты и когда следует начать новый поиск.
Решение проблемы с помощью обучения с подкреплением
Обучение с подкреплением (RL) было исследовано для улучшения этих способностей, вознаграждая эффективное использование поисковых инструментов. Однако традиционные подходы RL могут привести к чрезмерному использованию инструментов, когда модели выполняют избыточные поиски по простым запросам, что указывает на неэффективность, которую необходимо устранить.
Стратегии обучения с подкреплением
Различные стратегии RL, включая Proximal Policy Optimization (PPO), Direct Preference Optimization (DPO) и Group Relative Policy Optimization (GRPO), были применены для согласования поведения LLM с человеческими предпочтениями. PPO балансирует между исследованием и стабильностью политики, в то время как DPO непосредственно оптимизирует ответы модели на основе предпочтений пользователей. GRPO вводит групповые оценки для выявления тонких улучшений в рассуждении.
Введение SEM для оптимизации использования инструментов
Исследователи из Ant Group представили SEM, фреймворк обучения с подкреплением после обучения, разработанный для обучения LLM, когда использовать поисковые инструменты, а когда полагаться на внутренние знания. Обучаясь на сбалансированном наборе данных, который включает вопросы, требующие внешнего поиска, и те, которые можно ответить на основе предыдущих знаний, SEM направляет модели выдавать поисковые запросы только при необходимости. Фреймворк использует структурированный формат рассуждений и GRPO, вознаграждая точные ответы без поиска и штрафуя за ненужное использование инструментов.
Эффективная интеграция поисковых инструментов
Чтобы облегчить эффективную интеграцию поисковых инструментов в процесс рассуждений модели, SEM использует обучение с подкреплением для обучения моделей, когда и как проводить поиски. Набор данных для обучения включает Musique (вопросы, требующие внешней информации) и MMLU (вопросы, которые можно ответить на основе предыдущих знаний). Используя фреймворк GRPO, модели вознаграждаются за точные и эффективные ответы, в то время как ненужные поиски не поощряются.
Результаты и выводы
Исследование оценивало модель, обученную определять, когда использовать внутренние знания, а когда прибегать к внешним поискам. Сочетая наборы данных Musique и MMLU, производительность модели оценивалась с использованием таких бенчмарков, как HotpotQA, GSM8K и MMLU. Метод SEM последовательно превосходил базовые линии, такие как Naive RAG и ReSearch, по точности и эффективности поиска.
В заключение, SEM — это фреймворк обучения с подкреплением после обучения, предназначенный для улучшения того, как большие языковые модели используют внешние поисковые инструменты. Обучаясь на наборе данных, который включает MuSiQue и MMLU, модель учится различать вопросы, на которые она может ответить самостоятельно, и те, которые требуют внешней информации. Эксперименты на бенчмарках, таких как HotpotQA, GSM8K и MMLU, показывают, что SEM снижает избыточные поиски и улучшает точность, тем самым повышая эффективность рассуждений и интеллектуальное использование внешних знаний в LLM.
Практические рекомендации по внедрению ИИ в бизнес
- Изучите, какие процессы можно автоматизировать, и найдите моменты в взаимодействиях с клиентами, где ИИ может добавить наибольшую ценность.
- Определите важные KPI, чтобы убедиться, что ваши инвестиции в ИИ действительно оказывают положительное влияние на бизнес.
- Выбирайте инструменты, которые соответствуют вашим потребностям и позволяют настраивать их в соответствии с вашими целями.
- Начните с небольшого проекта, соберите данные о его эффективности, а затем постепенно расширяйте использование ИИ в вашей работе.
Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram здесь.
Посмотрите практический пример решения на основе ИИ: бот для продаж с https://itinai.ru/aisales, предназначенный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах пути клиента.