NVIDIA AI представляет AceReason-Nemotron для улучшения математического и программного мышления с помощью обучения с подкреплением
Введение
Способности к рассуждению являются ключевыми для развития систем ИИ. Появление o1 от OpenAI вызвало значительный интерес к созданию моделей рассуждения с использованием подходов обучения с подкреплением (RL). Несмотря на то, что открытый доступ к DeepSeek-R1 позволил сообществу разрабатывать современные модели рассуждения, важные технические детали, такие как стратегии кураторства данных и конкретные рецепты обучения RL, отсутствовали в первоначальном отчете, что затрудняло воспроизведение и приводило к фрагментации исследований.
Проблемы в текущих подходах
Обучение языковых моделей для рассуждений в области математики и программирования обычно основывается на предварительном обучении и контролируемой донастройке. Ранние инициативы RL с использованием моделей вознаграждения, специфичных для домена, показали ограниченный успех из-за сложностей, присущих математическим и программным задачам. Более современные методы, появившиеся после выпуска DeepSeek-R1, исследовали методы проверки на основе правил. Однако эти усилия часто ограничены одним доменом и не имеют комплексных оценок, что приводит к проблемам со стабильностью обучения.
Инновационный подход NVIDIA
Исследователи NVIDIA продемонстрировали, что обучение с подкреплением в большом масштабе может значительно улучшить способности к рассуждению сильных моделей малого и среднего размера. Их подход использует простую последовательную стратегию обучения: сначала обучение на задачах только по математике, затем на задачах только по программированию. Эта методология показывает, что RL на математических задачах улучшает результаты на математических тестах и повышает эффективность программирования. Расширенные итерации RL на задачах программирования дополнительно улучшают результаты, минимально влияя на математические результаты.
Пайплайн кураторства данных
Разработан надежный пайплайн кураторства данных для сбора сложных задач с высококачественными, проверяемыми ответами и тестовыми случаями, что облегчает RL на основе проверки в области математики и программирования. Этот пайплайн объединяет наборы данных DeepScaler и NuminaMath для математики, охватывающие алгебру, комбинаторику, теорию чисел и геометрию, применяя строгую фильтрацию для исключения неподходящего контента. Для программирования наборы данных кураторятся с платформ соревнований по программированию, включая полные тестовые случаи, которые охватывают крайние случаи.
Результаты производительности
Модель AceReason-Nemotron-7B достигла замечательного улучшения точности на 14.5% и 14.6% на AIME 2024/2025, а также на 14.2% и 8% на LiveCodeBench v5/v6 по сравнению с начальными моделями контролируемой донастройки. Вариант 14B превзошел более крупные модели, такие как DeepSeek-R1-Distill-Qwen-32B и DeepSeek-R1-Distill-Llama-70B, установив себя как лучший среди моделей рассуждения на основе открытого RL. Особенно стоит отметить, что AceReason-Nemotron-14B превзошел OpenMath-14B/32B на тестах AIME на 2.1%/4.4% и обошел OpenCodeReasoning-14B на 1.7%/0.8% на LiveCodeBench.
Заключение
В заключение, исследования показывают, что обучение с подкреплением в большом масштабе улучшает способности к рассуждению сильных моделей контролируемой донастройки малого и среднего размера. Последовательный подход к обучению, сосредоточенный сначала на математике, а затем на программировании, показывает, что обучение математическому рассуждению значительно улучшает результаты в обеих областях. Пайплайн кураторства данных облегчает RL на основе проверки, подчеркивая эффективность метода в расширении границ рассуждения моделей и установлении новых стандартов производительности.
Дополнительные материалы
Посмотрите статью и модель на Hugging Face. Все заслуги за это исследование принадлежат исследователям данного проекта. Также не забудьте подписаться на нас в Twitter и присоединиться к нашему SubReddit с более чем 95k участниками, а также подписаться на нашу рассылку.
Практические рекомендации
Изучите, как технологии искусственного интеллекта могут преобразовать ваш подход к работе. Найдите процессы, которые можно автоматизировать, и моменты в взаимодействии с клиентами, где ИИ может добавить наибольшую ценность.
Определите важные ключевые показатели эффективности (KPI), чтобы убедиться, что ваши инвестиции в ИИ действительно положительно влияют на бизнес.
Выбирайте инструменты, которые соответствуют вашим потребностям и позволяют настраивать их в соответствии с вашими целями.
Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.
Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram: https://t.me/itinai.
Посмотрите практический пример решения на основе ИИ: бот для продаж с сайта https://itinai.ru/aisales, предназначенный для автоматизации общения с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.