Новая MIT-исследование показывает, что обучение с подкреплением минимизирует катастрофическое забывание по сравнению с контролируемой донастройкой
В мире искусственного интеллекта (ИИ) катастрофическое забывание стало одной из самых серьезных проблем. Это явление возникает, когда модель, обученная на одном наборе задач, теряет свои навыки при обучении на новых данных. Но что, если бы существовал способ минимизировать это забывание? Новое исследование MIT показывает, что обучение с подкреплением (RL) может стать решением этой проблемы, сохраняя старые знания, в то время как контролируемая донастройка (SFT) часто приводит к их утрате.
Что такое катастрофическое забывание в базовых моделях?
Базовые модели, такие как языковые модели, демонстрируют выдающиеся результаты в различных областях. Однако после развертывания они становятся статичными. При донастройке на новые задачи часто происходит катастрофическое забывание, что создает преграды для создания долгоживущих и постоянно развивающихся ИИ-агентов. Это означает, что если вы обучаете модель на новых данных, она может забыть, как выполнять задачи, на которых она была обучена ранее.
Почему онлайн-обучение с подкреплением забывает меньше, чем контролируемая донастройка?
Исследование MIT сравнивает RL и SFT. Оба метода могут достигать высоких результатов на новых задачах, но SFT, как правило, перезаписывает предыдущие способности. В отличие от этого, RL сохраняет эти способности. Ключевое различие заключается в том, как каждый метод изменяет распределение выходных данных модели относительно базовой политики.
Как можно измерить забывание?
Исследовательская команда предложила эмпирический закон забывания:
Забывание ∝ KL(π0∣∣π)
где π0 — базовая модель, а π — донастроенная модель. Прямое отклонение Кульбака-Лейблера (KL), измеренное на новой задаче, сильно предсказывает степень забывания. Это делает забывание количественно измеримым без необходимости в данных из предыдущих задач.
Что показывают эксперименты на больших языковых моделях?
С использованием Qwen 2.5 3B-Instruct в качестве базовой модели, донастройка проводилась на:
- Математическое мышление (Open-Reasoner-Zero)
- Научные вопросы и ответы (подмножество SciKnowEval)
- Использование инструментов (ToolAlpaca)
Оценка производительности проводилась на предыдущих бенчмарках, таких как HellaSwag, MMLU, TruthfulQA и HumanEval. Результаты показали, что RL улучшает точность на новых задачах, сохраняя при этом стабильную точность на предыдущих задачах, в то время как SFT постоянно жертвует старыми знаниями.
Как RL сравнивается с SFT в задачах робототехники?
В экспериментах по управлению роботами с использованием OpenVLA-7B, донастроенной в сценариях pick-and-place в SimplerEnv, адаптация RL сохраняла общие навыки манипуляции на разных задачах. SFT, хотя и успешная на новой задаче, ухудшала предыдущие способности манипуляции, снова иллюстрируя консерватизм RL в сохранении знаний.
Каковы более широкие последствия?
Оценка: После обучения следует учитывать KL-консерватизм, а не только точность задачи.
Гибридные методы: Сочетание эффективности SFT с явным минимизацией KL может привести к оптимальным компромиссам.
Непрерывное обучение: Принцип RL предлагает измеримый критерий для разработки адаптивных агентов, которые учатся новым навыкам, не стирая старые.
Часто задаваемые вопросы (FAQ)
1. Что такое катастрофическое забывание?
Катастрофическое забывание — это потеря ранее усвоенных навыков при обучении модели на новых данных.
2. Как обучение с подкреплением помогает сохранить знания?
RL использует обновления на основе собственных выходов модели, что позволяет сохранять близость к базовой модели и минимизировать забывание.
3. Какие преимущества у RL по сравнению с SFT?
RL сохраняет старые способности, даже когда достигает высокой точности на новых задачах, в то время как SFT часто приводит к утрате этих способностей.
4. Как измеряется забывание в моделях?
Забывание измеряется с помощью отклонения Кульбака-Лейблера (KL) между базовой и донастроенной моделью.
5. Какие примеры использования RL уже существуют?
RL активно применяется в робототехнике и языковых моделях, показывая высокие результаты в сохранении знаний.
6. Каковы будущие направления исследований в этой области?
Будущие исследования могут сосредоточиться на разработке гибридных методов, которые объединяют эффективность SFT и RL для достижения лучших результатов.
Заключение
Исследование MIT переосмысливает катастрофическое забывание как распределительную проблему, управляемую отклонением KL. Обучение с подкреплением забывает меньше, потому что его обновления на основе политики естественным образом стремятся к KL-минимальным решениям. Этот принцип предоставляет как объяснение устойчивости RL, так и дорожную карту для разработки методов постобучения, поддерживающих долговременное обучение в базовых моделях.
Ключевые выводы
- Обучение с подкреплением (RL) лучше сохраняет предыдущие знания, чем контролируемая донастройка (SFT).
- Забывание предсказуемо по отклонению KL.
- Принцип RL гарантирует, что обновления остаются близкими к базовой модели и уменьшают забывание.
- Эксперименты подтверждают устойчивость RL к забыванию.
- Будущие алгоритмы должны оцениваться не только по точности, но и по тому, насколько консервативно они изменяют распределения в пространстве KL.