
Масштабное обучение с подкреплением (RL) языковых моделей для задач рассуждения стало многообещающей техникой для освоения сложных навыков решения проблем. Современные методы, такие как o1 от OpenAI и R1-Zero от DeepSeek, продемонстрировали замечательные результаты в увеличении времени тренировки. Оба модели показывают стабильный рост производительности и длины ответов без признаков насыщения по мере увеличения вычислительных ресурсов. Вдохновленные этими достижениями, исследователи в данной работе изучили новое явление масштабирования, проводя обучение RL непосредственно на базовых моделях, назвав этот подход Reasoner-Zero.
Исследователи из StepFun и Университета Цинхуа предложили Open-Reasoner-Zero (ORZ) — открытый исходный код для масштабного обучения RL, ориентированного на рассуждения. Это значительный шаг к доступности передовых техник RL для широкой исследовательской аудитории. ORZ улучшает разнообразные навыки рассуждения при проверяемых вознаграждениях, включая арифметику, логику, программирование и задачи на общие знания. Он решает критические задачи, связанные со стабильностью тренировки, оптимизацией длины ответов и улучшением производительности с помощью комплексной стратегии обучения.
Фреймворк ORZ использует модель Qwen2.5-{7B, 32B} в качестве базовой и реализует прямое масштабное обучение RL без предварительной настройки. Система использует масштабированную версию стандартного алгоритма PPO, оптимизированного для задач рассуждения. Датасет для обучения состоит из тщательно подобранных пар вопросов и ответов, сосредоточенных на STEM, математике и различных задачах рассуждения. Архитектура включает специализированный шаблон подсказок, предназначенный для повышения вычислительных возможностей вывода. Реализация построена на OpenRLHF и включает значительные улучшения, такие как гибкий тренер, генерация коллокации GPU и продвинутые механизмы поддержки для эффективного масштабного обучения.
Результаты обучения демонстрируют значительные улучшения производительности по нескольким метрикам для обеих конфигураций Open-Reasoner-Zero — 7B и 32B. Кривые обучения показывают постоянные улучшения в метриках вознаграждения и длины ответов, с заметным явлением “шагового момента”, указывающим на резкие улучшения в способностях рассуждения. Модель Open-Reasoner-Zero-32B достигает сопоставимой длины ответов с DeepSeek-R1-Zero (671B MoE) при использовании лишь 1/5.8 шагов обучения, что подтверждает эффективность минималистского подхода к масштабному обучению RL.
Основные экспериментальные результаты показывают, что Open-Reasoner-Zero демонстрирует выдающиеся результаты по нескольким оценочным метрикам, особенно в конфигурации 32B. Она достигает лучших результатов по сравнению с DeepSeek-R1-Zero-Qwen2.5-32B на бенчмарке GPQA DIAMOND, требуя лишь 1/30 шагов обучения, что свидетельствует о замечательной эффективности обучения. Кроме того, 7B вариант демонстрирует интересные динамики обучения с постоянным улучшением точности и резким ростом длины ответов. Во время оценки наблюдается характерное явление “шагового момента”, проявляющееся в резком увеличении как вознаграждения, так и длины ответов, особенно на бенчмарках GPQA DIAMOND и AIME2024.
В данной работе исследователи представили Open-Reasoner-Zero, что стало важной вехой в демократизации масштабного обучения RL, ориентированного на рассуждения, для языковых моделей. Исследование показывает, что упрощенный подход с использованием стандартного PPO с GAE и основанными на правилах функциями вознаграждения может достигать конкурентоспособных результатов по сравнению с более сложными системами. Успешная реализация без KL-регуляризации доказывает, что сложные архитектурные изменения могут не быть необходимыми для достижения сильных способностей рассуждения. Открывая полный процесс обучения и делясь подробными знаниями, эта работа закладывает основу для будущих исследований в области масштабирования способностей рассуждения языковых моделей, и это только начало новой тенденции в развитии ИИ.
Изучите, как технологии искусственного интеллекта могут трансформировать ваш подход к работе, например: Open-Reasoner-Zero: Открытая реализация масштабного обучения с подкреплением, ориентированного на рассуждения.
Посмотрите вокруг и найдите процессы, которые можно автоматизировать. Выявите моменты в взаимодействии с клиентами, где искусственный интеллект может добавить наибольшую ценность.
Определите важные KPI, чтобы убедиться, что ваши инвестиции в ИИ действительно положительно влияют на бизнес.
Выбирайте инструменты, которые соответствуют вашим потребностям и позволяют настраивать их в соответствии с вашими целями.
Начните с небольшого проекта, соберите данные о его эффективности, а затем постепенно расширяйте использование ИИ в вашей работе.
Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram.
Посмотрите практический пример решения на основе ИИ: бот для продаж, разработанный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.