Могут ли большие языковые модели действительно судить с рассуждением?
Введение
Недавние достижения в области больших языковых моделей (LLMs) привлекли внимание к их возможностям в рассуждении и суждении. Исследователи из Microsoft и Университета Цинхуа представили Модели Награды за Рассуждение (RRMs), которые направлены на улучшение согласования LLMs путем динамического масштабирования вычислительных ресурсов во время оценивания.
Роль обучения с подкреплением в LLMs
Обучение с подкреплением (RL) играет ключевую роль в пост-тренировке LLMs, используя либо человеческую обратную связь (RLHF), либо проверяемые награды (RLVR). Хотя RLVR показывает потенциал в математическом рассуждении, его применение ограничено необходимостью тренировки запросов с проверяемыми ответами, что сужает его использование до общих доменных запросов, где проверка невозможна.
Проблемы с текущими моделями наград
Текущие модели наград можно классифицировать на скалярные и генеративные. Скалярные модели присваивают числовые оценки парам запрос-ответ, в то время как генеративные модели предоставляют обратную связь на естественном языке. Однако эти модели часто используют равномерные вычислительные ресурсы для всех входных данных, не адаптируя распределение дополнительных ресурсов для более сложных запросов.
Введение Моделей Награды за Рассуждение (RRMs)
Для решения этих ограничений RRMs фокусируются на явном рассуждении перед назначением награды. Проводя фазу рассуждения, RRMs могут адаптивно распределять вычислительные ресурсы для оценки ответов на сложные задачи. Этот подход позволяет улучшить моделирование наград и поддерживает разнообразные сценарии оценки.
Технические спецификации и бизнес-приложения
RRMs используют модель Qwen2 с архитектурой Transformer-декодера, рассматривая моделирование наград как задачу завершения текста. Они автогрессивно генерируют процессы рассуждения, за которыми следуют окончательные суждения. Каждый вход состоит из запроса и двух ответов, предпочтение определяется без ничьей.
Репозиторий RewardBench направляет системный анализ по различным критериям оценки, включая соответствие инструкциям, полезность, точность, безопасность и уровень детализации. RRMs облегчают оценку нескольких ответов с помощью систем рейтинга ELO и турниров на выбывание, повышая использование вычислений во время тестирования.
Оценка производительности
Результаты оценивания показывают, что RRMs достигают конкурентоспособной производительности по сравнению с надежными базовыми моделями на тестах RewardBench и PandaLM. Модель RRM-32B достигает точности 98.6% в категориях рассуждения. Сравнения с моделями DirectJudge показывают значительные преимущества в производительности, подчеркивая эффективность RRMs в использовании вычислений во время тестирования для сложных запросов.
В сценариях, таких как вывод на основе награды в формате «лучший из N», RRMs продемонстрировали превосходные результаты по сравнению со всеми базовыми моделями без необходимости в дополнительных вычислениях во время тестирования. Голосование большинства дополнительно улучшает результаты среди оцененных подмножеств. Кроме того, эксперименты после тренировки показывают постоянное улучшение производительности в последующих задачах на MMLU-Pro и GPQA.
Заключение
Введение RRMs является значительным шагом в эволюции моделирования наград в LLMs. Проводя явное рассуждение перед назначением награды, RRMs решают проблему вычислительной негибкости существующих моделей. Этот подход позволяет развивать сложные возможности рассуждения без опоры на явные следы рассуждения в качестве надзора. Адаптивность RRMs в практических приложениях подчеркивает их потенциал как надежной альтернативы традиционным скалярным моделям наград.
Практические рекомендации
Изучите, как технологии искусственного интеллекта могут преобразовать ваш подход к работе. Определите процессы, которые можно автоматизировать, и моменты взаимодействия с клиентами, где ИИ может добавить наибольшую ценность.
Выберите инструменты, которые соответствуют вашим потребностям и позволяют вам настраивать их в соответствии с вашими целями. Начните с небольшого проекта, соберите данные о его эффективности, а затем постепенно расширяйте использование ИИ в вашей работе.
Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Подписывайтесь на наш Telegram, чтобы быть в курсе последних новостей ИИ.
Посмотрите практический пример решения на базе ИИ: бот продаж от itinai.ru/aisales, созданный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.