Революция в обучении ИИ: как ReSearch улучшает модели с помощью обучения с подкреплением

Представляем ReSearch: Новая AI-структура для обучения LLMs интеграции рассуждений с поиском

Большие языковые модели (LLMs) достигли значительного прогресса в различных задачах, особенно в области рассуждений. Однако эффективная интеграция процессов рассуждения с внешними поисковыми операциями остается сложной задачей, особенно для многопроцессных вопросов, требующих сложных цепочек рассуждений и нескольких этапов поиска.

Проблемы существующих методов

Текущие методы в основном зависят от вручную разработанных подсказок или эвристик, что ограничивает их масштабируемость и гибкость. Кроме того, создание контролируемых данных для сценариев многопроцессного рассуждения часто является чрезмерно дорогим и практически невозможным.

Решение от Baichuan Inc. и партнеров

Исследователи из Baichuan Inc., Тунцзийского университета, Университета Эдинбурга и Чжэцзянского университета представляют ReSearch, новую AI-структуру, предназначенную для обучения LLMs интеграции рассуждений с поиском через обучение с подкреплением, без использования контролируемых шагов рассуждения.

Методология ReSearch

Основная методология ReSearch включает в себя интеграцию поисковых операций непосредственно в цепочку рассуждений. Используя технику обучения с подкреплением Group Relative Policy Optimization (GRPO), ReSearch направляет LLMs на автономное определение оптимальных моментов и стратегий для выполнения поисковых операций, что, в свою очередь, влияет на текущее рассуждение.

Технические аспекты

С технической точки зрения, ReSearch использует структурированные форматы вывода, внедряя специальные теги, такие как <search>, <reasoning>, <output> и <feedback>, в цепочку рассуждений. Эти теги упрощают взаимодействие между моделью и внешней средой поиска, систематически организуя сгенерированные выходные данные.

Экспериментальная оценка

Экспериментальная оценка подтверждает надежность ReSearch. При оценке на многопроцессных вопросно-ответных бенчмарках, таких как HotpotQA, 2WikiMultiHopQA, MuSiQue и Bamboogle, ReSearch последовательно превосходил базовые методы. Например, ReSearch-Qwen-32B-Instruct достиг улучшений в диапазоне от 8.9% до 22.4% по сравнению с установленными базовыми значениями.

Заключение

В заключение, ReSearch представляет собой значительное методологическое достижение в обучении LLMs бесшовной интеграции рассуждений с внешними механизмами поиска через обучение с подкреплением. Устранение зависимости от контролируемых данных по рассуждениям эффективно решает критические проблемы масштабируемости и адаптивности, присущие многопроцессным сценариям рассуждений.

Практические рекомендации для бизнеса

Изучите, какие процессы можно автоматизировать. Найдите моменты в взаимодействии с клиентами, где искусственный интеллект может добавить наибольшую ценность.

Определите важные KPI, чтобы убедиться, что ваши инвестиции в AI действительно оказывают положительное влияние на бизнес.

Выберите инструменты, которые соответствуют вашим потребностям и позволяют настраивать их в соответствии с вашими целями.

Начните с небольшого проекта, соберите данные о его эффективности, а затем постепенно расширяйте использование AI в своей работе.

Свяжитесь с нами

Если вам нужна помощь в управлении AI в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей AI, подпишитесь на наш Telegram.

Пример решения на базе AI

Посмотрите на практический пример решения на базе AI: бот для продаж от itinai.ru/aisales, предназначенный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.

AI Framework Image

Новости в сфере искусственного интеллекта