КРЕМ: Новый метод самонаграждения для более избирательного обучения моделей и акцента на надежных данных о предпочтениях.

 CREAM: A New Self-Rewarding Method that Allows the Model to Learn more Selectively and Emphasize on Reliable Preference Data

“`html

Проблемы современных языковых моделей (LLMs)

Основная проблема: Как согласовать модели с человеческими ценностями и предпочтениями.

Сгенерированные тексты часто бывают неточными, предвзятыми или даже опасными. Это ограничивает использование LLM в таких областях, как образование, здравоохранение и поддержка клиентов.

Проблема усугубляется: Совершенствование моделей может ухудшить согласование, что снижает доверие к их выводам.

Текущие решения для согласования

Существуют методы, такие как RLHF (обучение с подкреплением на основе человеческой обратной связи) и DPO (оптимизация предпочтений). Они требуют大量 размеченных данных, что трудно масштабировать.

Новая методика: Модели с самообучением (SRLM) стремятся сократить зависимость от человеческих данных, создавая предпочтения автоматически. Однако это может привести к предвзятости в данных.

Решение CREAM

Исследователи представили метод CREAM, который борется с предвзятостью в SRLM, вводя регуляризацию на основе согласованности наград. Это помогает улучшить качество предпочтений, используя более надежные данные.

Как работает CREAM

Метод сравнивает ранжирование ответов модели из различных итераций с помощью коэффициента согласованности. Это позволяет модели опираться на данные с высокой согласованностью. CREAM также использует небольшие модели, такие как LLaMA-7B, с общедоступными наборами данных.

Преимущества CREAM

CREAM показывает значительные улучшения в задачах согласования и устранения предвзятости:

  • Увеличение точности на ARC-Easy с 86.78% до 89.52%.
  • Рост точности на SIQA с 69.50% до 72.06%.

Заключение

CREAM представляет собой новое решение для проблемы предвзятости наград в моделях самообучения. Уделяя больше внимания надежным данным, CREAM значительно улучшает согласование работы моделей, особенно для меньших моделей.

Это важный шаг к масштабируемости и эффективности в обучении предпочтениям. Результаты подтверждают, что CREAM превосходит существующие методы.

Как использовать ИИ для вашего бизнеса

Для успешного внедрения ИИ в вашу компанию:

  • Анализируйте, как ИИ может изменить вашу работу.
  • Определите ключевые показатели эффективности (KPI).
  • Подберите подходящее решение и начинайте с небольших проектов.
  • Расширяйте автоматизацию на основе полученных данных.

Если нужны советы по внедрению ИИ, пишите нам в Telegram. Следите за новостями о ИИ в нашем Telegram-канале или в Twitter.

Попробуйте AI Sales Bot — этот ИИ-ассистент помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab на itinai.ru. Будущее уже здесь!

“`

Полезные ссылки: