Понимание ограничений современных моделей вознаграждения
Модели вознаграждения играют ключевую роль в обучении с подкреплением на основе человеческой обратной связи (RLHF). Однако многие из современных высокоэффективных открытых моделей не способны отразить весь спектр сложных человеческих предпочтений. Даже с использованием передовых методов обучения, значительный прогресс остается ограниченным. Основная причина этого кроется в недостатках текущих наборов данных предпочтений, которые часто бывают слишком узкими, искусственно сгенерированными или плохо проверенными. В то время как некоторые системы на основе правил эффективно работают для четких задач, таких как математика или программирование, они, как правило, не способны уловить нюансы человеческого суждения. Кроме того, общепринятые эталоны, такие как RewardBench, становятся менее надежными индикаторами реальной производительности моделей вознаграждения, показывая плохую корреляцию с успехом в последующих задачах.
Проблемы создания данных предпочтений и новые подходы
Традиционно создание качественных данных предпочтений зависело от человеческих аннотаторов, что является трудоемким, дорогостоящим и иногда непоследовательным процессом. Новейшие методы, такие как RLAIF, используют большие языковые модели (LLMs) для автоматизации аннотаций, часто превосходя человеческих аннотаторов. Новые подходы стремятся объединить сильные стороны обеих методологий, интегрируя данные, сгенерированные LLM, с проверенными человеческими метками. Более того, модели вознаграждения эволюционировали от простых систем оценки, таких как модель Бредли-Терри, к более сложным структурам, включая генеративные и методы прямой оптимизации. Несмотря на наличие множества надежных открытых моделей и наборов данных, продолжают существовать проблемы с точным захватом нюансов человеческих предпочтений в различных задачах и языках.
Представляем SynPref-40M: набор данных предпочтений в большом масштабе
Исследователи из 2050 Research и Skywork AI представляют SynPref-40M, огромный набор данных из 40 миллионов пар предпочтений, собранный через двухступенчатый процесс человек-ИИ. Человеческие аннотаторы обеспечивают качество через строгую проверку, в то время как LLM помогают в кураторстве данных, используя человеческие рекомендации. Это усилие приводит к разработке Skywork-Reward-V2, семейства восьми моделей вознаграждения (от 0.6B до 8B параметров), обученных на высококачественном подмножестве из 26 миллионов пар предпочтений. Эти модели достигают передовых результатов по семи ведущим эталонам, превосходя в области согласования, безопасности, объективности и устойчивости. Исследование подчеркивает, что успех зависит не только от объема данных, но и от тщательной, итеративной кураторской работы, которая сочетает человеческий опыт с масштабируемостью ИИ.
Масштабируемая двухступенчатая кураторская система человек-ИИ
Современные открытые модели вознаграждения часто страдают от переобучения на узких эталонах, таких как RewardBench, что ограничивает их полезность в реальном мире. Чтобы решить эту проблему, исследователи представляют двухступенчатую систему кураторства данных предпочтений. Первая стадия включает аннотации, проверенные человеком, для направления LLM в маркировке различных атрибутов предпочтений, за которой следует итеративное обучение и анализ ошибок для уточнения модели вознаграждения. Вторая стадия масштабирует этот процесс, используя проверки согласованности между лучшей и обученной человеком «золотой» моделью вознаграждения, фильтруя надежные образцы без дальнейшего человеческого участия. Этот подход находит баланс между качеством и масштабируемостью, позволяя создавать десятки миллионов высококачественных пар предпочтений.
Бенчмаркинг Skywork-Reward-V2: компактные, но мощные модели
Серия Skywork-Reward-V2 демонстрирует высокую производительность по нескольким эталонам, превосходя как более крупные модели (например, 70B параметров), так и новые генеративные модели вознаграждения. Обученные с использованием Qwen3 (от 0.6B до 8B) и Llama 3.1/3.2 (от 1B до 8B), эти модели достигают высоких оценок на RewardBench, PPE, RM-Bench и JudgeBench, причем лучшая модель (Llama-3.1-8B-40M) превосходит все остальные с средней оценкой 88.6. Несмотря на меньшие размеры моделей, Skywork-Reward-V2 выигрывают от высококачественных данных предпочтений (SynPref-40M) и эффективных настроек обучения, что позволяет им лучше обобщать в реальных сценариях RLHF. Примечательно, что даже модели среднего размера, такие как Qwen3-1.7B, превосходят некоторые 70B модели, подчеркивая влияние качества данных обучения и методологии над простым количеством параметров.
Заключение и перспективы: масштабирование с точностью
В заключение, SynPref-40M — это набор данных предпочтений в большом масштабе, созданный через сотрудничество человек-ИИ, объединяющий человеческое суждение с масштабируемостью на основе LLM. Используя кураторское подмножество из 26 миллионов пар предпочтений, команда разработала Skywork-Reward-V2, набор из восьми моделей вознаграждения (от 0.6B до 8B параметров), которые превосходят существующие модели по семи ключевым эталонам. Эти модели демонстрируют сильное обобщение в согласовании с человеческими ценностями, обеспечивая правильность, безопасность и устойчивость к предвзятости. Обширные исследования подтверждают, что как качество данных, так и метод кураторства являются ключевыми факторами производительности. В будущем исследователи планируют изучить новые стратегии обучения, поскольку модели вознаграждения становятся центральными в разработке и согласовании LLM.
Часто задаваемые вопросы
- Что такое SynPref-40M? Это набор данных из 40 миллионов пар предпочтений, созданный с помощью двухступенчатого процесса человек-ИИ.
- Как Skywork-Reward-V2 улучшает модели вознаграждения? Модели обучены на высококачественных данных и демонстрируют высокую производительность по различным эталонам.
- Почему важны данные предпочтений? Они помогают моделям лучше понимать и отражать человеческие предпочтения, что критично для успешного обучения с подкреплением.
- Каковы преимущества двухступенчатой системы кураторства? Она обеспечивает высокое качество данных и масштабируемость, позволяя создавать большие объемы надежных пар предпочтений.
- Что такое RLHF? Это метод обучения, который использует обратную связь от человека для улучшения моделей ИИ.
- Каковы перспективы использования Skywork-Reward-V2? Модели могут быть применены в различных областях, включая автоматизацию бизнеса и улучшение пользовательского опыта.