Исследователи Alibaba предлагают Reward Learning on Policy (RLP): безнадзорную версию искусственного интеллекта, которая улучшает модель вознаграждения с использованием образцов политики для поддержания ее в пределах распределения.

 Alibaba Researchers Propose Reward Learning on Policy (RLP): An Unsupervised AI Framework that Refines a Reward Model Using Policy Samples to Keep it on-Distribution

Большие языковые модели (LLM) и их соответствие человеческим предпочтениям

Большие языковые модели (LLM) – это мощные искусственные интеллектуальные системы, имитирующие человеческие взаимодействия. Они находят практическое применение в автоматизации обслуживания клиентов и создании контента. Однако основной вызов заключается в том, чтобы настроить эти модели так, чтобы они точно отражали человеческие предпочтения и безопасно функционировали в заданных контекстах.

Проблемы и решения

Усилия по соответствию LLM человеческим ожиданиям включают сбор обратной связи от людей, интерпретацию ее для корректировки механизмов вознаграждения модели и оптимизацию на основе этих корректировок. Однако последовательный подход затрудняет поддержание точности модели вознаграждения по мере развития LLM, что приводит к несоответствиям между выводами модели и человеческими предпочтениями.

Исследователи из Alibaba Group предложили новую методику под названием Reward Learning on Policy (RLP). RLP направлена на улучшение модели вознаграждения с использованием распределения образцов политики, используя многозначное обучение и синтетическое формирование предпочтений, чтобы обеспечить непрерывную точность и актуальность модели вознаграждения.

Практические применения и ценность

Применение RLP имеет практические последствия для разработки и внедрения LLM в различных сферах. Обеспечивая точную настройку LLM под человеческие предпочтения, RLP улучшает безопасность, надежность и эффективность приложений, основанных на искусственном интеллекте, значительно способствуя развитию технологий искусственного интеллекта.

Заключение и следующие шаги

RLP от Alibaba Group представляет собой новаторский подход к соответствию больших языковых моделей человеческим предпочтениям. Адресуя ограничения традиционных методов, RLP предлагает сложную, эффективную и эффективную систему для настройки модели. Его способность динамически адаптировать систему вознаграждения в ответ на изменения политики обеспечивает эволюцию LLM без утраты человеческих предпочтений.

Практические решения искусственного интеллекта для бизнеса

Узнайте, как искусственный интеллект может изменить ваш способ работы, выявив возможности для автоматизации, определив ключевые показатели производительности, выбрав и постепенно внедрив AI-решения. Для советов по управлению KPI с использованием искусственного интеллекта и применения AI свяжитесь с нами по адресу hello@itinai.com или следите за новостями на нашем Telegram t.me/itinainews или Twitter @itinaicom.

Внимание на AI Sales Bot

Рассмотрите AI Sales Bot от itinai.com/aisalesbot, разработанный для автоматизации взаимодействия с клиентами 24/7 и управления взаимодействием на всех этапах пути клиента. Исследуйте, как искусственный интеллект может изменить ваши процессы продаж и взаимодействие с клиентами на сайте itinai.com.

Список полезных ссылок:

AI Lab в Telegram @aiscrumbot – бесплатная консультация

Alibaba Researchers Propose Reward Learning on Policy (RLP): An Unsupervised AI Framework that Refines a Reward Model Using Policy Samples to Keep it on-Distribution

MarkTechPost

Twitter –  @itinaicom

Полезные ссылки: