✅ Оптимизация предпочтений самоигры (SPPO): новый подход машинного обучения к настройке больших языковых моделей (LLM) на основе обратной связи от человека/ИИ

«`html

Self-Play Preference Optimization (SPPO): Инновационный подход машинного обучения к настройке больших языковых моделей (LLM) отзывами от человека/ИИ

Большие языковые модели (LLM) продемонстрировали замечательные способности в генерации текста, ответах на вопросы и написании кода. Однако они сталкиваются с препятствиями, требующими высокой надежности, безопасности и этической соблюдения. Усиленное обучение на основе обратной связи от человека (RLHF), или предпочтительное обучение с подкреплением (PbRL), возникает как многообещающее решение. Этот фреймворк показал значительный успех в настройке LLM для соответствия предпочтениям человека, улучшая их полезность.

Основные аспекты

RLHF подвергается исследованиям, основанным на прямых вероятностях предпочтений, что лучше отражает предпочтения человека. Некоторые исследователи формулируют RLHF как поиск равновесий Нэша в играх с постоянной суммой, предлагая методы зеркального спуска и оптимизации предпочтений самопроигрывания (SPO). Прямая оптимизация Нэша (DNO) также была представлена на основе разрывов в выигрышной ставке, однако ее практическая реализация все еще зависит от итеративных фреймворков DPO.

Практическое применение

Ученые из Университета Калифорнии в Лос-Анджелесе и Карнеги Меллон представляют надежный фреймворк самопроигрыша, Self-Play Preference Optimization (SPPO), для выравнивания языковой модели, решая проблемы RLHF. Он предлагает доказанные гарантии для решения игр с постоянной суммой для двух игроков и масштабируемость для больших языковых моделей. В формулировании RLHF как такой игры цель заключается в выявлении политики равновесия Нэша, обеспечивая постоянно предпочтительные ответы. Они предлагают адаптивный алгоритм на основе мультипликативных весов, используя механизм самопроигрыша, где политика настраивается на синтетических данных, аннотированных моделью предпочтений.

Ценность и практическая польза

Фреймворк самопроигрыша направлен на эффективное решение игр с постоянной суммой для двух игроков масштабных языковых моделей. Он принимает итеративный фреймворк на основе обновлений мультипликативных весов и механизма самопроигрыша. Алгоритм асимптотически сходится к оптимальной политике, выявляя равновесие Нэша. Теоретический анализ гарантирует сходимость, предоставляя доказанные гарантии. По сравнению с существующими методами, такими как DPO и IPO, SPPO демонстрирует улучшенную сходимость и эффективно решает проблемы разреженности данных.

Результаты исследований

Исследователи оценивают модели с использованием GPT-4 для автоматической оценки, представляя результаты на AlpacaEval 2.0 и MT-Bench. Модели SPPO последовательно улучшаются на протяжении итераций, причем SPPO Iter3 показывает наивысшую выигрышную ставку. По сравнению с DPO и IPO, SPPO достигает превосходной производительности и эффективно контролирует длину вывода. Повторная ранжировка на этапе тестирования с использованием модели наград PairRM последовательно улучшает производительность модели без переоптимизации. SPPO превосходит многих современных чат-ботов на AlpacaEval 2.0 и остается конкурентоспособным с GPT-4 на MT-Bench.

Заключение

Статья представляет Self-Play Preference Optimization (SPPO), надежный метод для настройки LLM с использованием обратной связи от человека/ИИ. Путем использования самопроигрыша в игре для двух игроков и целевой обучения на основе предпочтений, SPPO значительно улучшает существующие методы, такие как DPO и IPO, на различных показателях. Интеграция модели предпочтений и пакетной оценки позволяет SPPO тесно соответствовать предпочтениям человека, решая проблемы, такие как «длинный биас» и взлом награды. Эти результаты предполагают потенциал SPPO для улучшения соответствия генеративной системы ИИ, а также аргументируют за его более широкое применение в LLM и за его пределами.

Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, каналу в Discord и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему субреддиту с 41 тысячей подписчиков.

Статья Self-Play Preference Optimization (SPPO): Инновационный подход машинного обучения к настройке больших языковых моделей (LLMs) отзывами от человека/ИИ впервые появилась на MarkTechPost.

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте Self-Play Preference Optimization (SPPO): An Innovative Machine Learning Approach to Finetuning Large Language Models (LLMs) from Human/AI Feedback.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизацию: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358

Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru будущее уже здесь!

«`

Оптимизация предпочтений самоигры (SPPO): новый подход машинного обучения к настройке больших языковых моделей (LLM) на основе обратной связи от человека/ИИ

Self-Play Preference Optimization (SPPO): Инновационный подход машинного обучения к настройке больших языковых моделей (LLM) отзывами от человека/ИИ

Основные аспекты

Практическое применение

Ценность и практическая польза

Результаты исследований

Заключение

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

Как эксперт по маркетингу может начать с AI

AI-боты в онлайн-образовании

Монетизация блога по саморазвитию через AI

Монетизация блога про уход за кожей

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Специалист по автоматизации бухгалтерии : обработка счетов и налоговых деклараций

ИИ-Аналитик конкурентов : мониторинг цен и позиционирования

ИИ-Агент по автоматизации юридических процессов : подготовка шаблонных документов

ИИ-Аналитик документов : извлечение данных из контрактов и отчетов

Скрипт диалога при повторной продаже: искусственный интеллект предложит фразы для лояльного клиента

Как организовать сбор дефектов в формате RCA: ИИ предложит шаблон анализа корневых причин

Как закрыть обращение с гарантией, что клиент доволен: ИИ предложит текст финального ответа

Как внедрить управление качеством по ISO 9001: ИИ предложит дорожную карту и документы

Как написать тест-кейсы по спецификации: ИИ сгенерирует до 10 кейсов по описанию фичи

Как запланировать спринт по Scrum: ИИ предложит распределение задач по capacity команды

Лучший ИИ онлайн

Ускорение биофизических моделей мозга: DELSSOME обеспечивает 2000× прирост скорости без потери точности

Cohere AI представляет INCLUDE: Всеобъемлющий стандарт для понимания многоязычного языка.

Релиз sqlite-vec v0.1.0: Расширение для SQLite с поддержкой векторной базы данных, бинарной квантизации и SDK.

Как собрать материалы для встречи руководителя: ИИ составит список документов и структуру папки

Инструмент для автоматизации юридических процессов с ЭДО и ИИ-проверкой договоров

Использование искусственного интеллекта для улучшения планирования генетических экспериментов

Исследование возможностей применения GPT в дизайне игр

Реклама

Политика конфиденциальности

Доступность

Политика комментариев

Куки-политика

Редакционная политика