КРЕМ: Новый метод самонаграждения для более избирательного обучения моделей и акцента на надежных данных о предпочтениях.

Itinai.com overwhelmed ui interface google style million butt 4839bc38 e4ae 425e bf30 fe84f7941f4c 3

«`html

Проблемы современных языковых моделей (LLMs)

Основная проблема: Как согласовать модели с человеческими ценностями и предпочтениями.

Сгенерированные тексты часто бывают неточными, предвзятыми или даже опасными. Это ограничивает использование LLM в таких областях, как образование, здравоохранение и поддержка клиентов.

Проблема усугубляется: Совершенствование моделей может ухудшить согласование, что снижает доверие к их выводам.

Текущие решения для согласования

Существуют методы, такие как RLHF (обучение с подкреплением на основе человеческой обратной связи) и DPO (оптимизация предпочтений). Они требуют大量 размеченных данных, что трудно масштабировать.

Новая методика: Модели с самообучением (SRLM) стремятся сократить зависимость от человеческих данных, создавая предпочтения автоматически. Однако это может привести к предвзятости в данных.

Решение CREAM

Исследователи представили метод CREAM, который борется с предвзятостью в SRLM, вводя регуляризацию на основе согласованности наград. Это помогает улучшить качество предпочтений, используя более надежные данные.

Как работает CREAM

Метод сравнивает ранжирование ответов модели из различных итераций с помощью коэффициента согласованности. Это позволяет модели опираться на данные с высокой согласованностью. CREAM также использует небольшие модели, такие как LLaMA-7B, с общедоступными наборами данных.

Преимущества CREAM

CREAM показывает значительные улучшения в задачах согласования и устранения предвзятости:

Увеличение точности на ARC-Easy с 86.78% до 89.52%.
Рост точности на SIQA с 69.50% до 72.06%.

Заключение

CREAM представляет собой новое решение для проблемы предвзятости наград в моделях самообучения. Уделяя больше внимания надежным данным, CREAM значительно улучшает согласование работы моделей, особенно для меньших моделей.

Это важный шаг к масштабируемости и эффективности в обучении предпочтениям. Результаты подтверждают, что CREAM превосходит существующие методы.