Модели вознаграждения для мультимодального обучения: вызовы и перспективы


Продвижение Моделей Наград Визуального-Языкового Сопровождения: Проблемы, Измерения и Роль Обучения Под Руководством Процессов

Модели вознаграждений, регулируемые процессами (PRMs), предлагают детализированную и поэтапную обратную связь о ответах моделей, что помогает выбирать эффективные пути рассуждений для сложных задач. В отличие от моделей вознаграждений по выходу (ORMs), которые оценивают ответы на основе финальных результатов, PRMs предоставляют детальные оценки на каждом этапе, что делает их особенно ценными для приложений с интенсивными размышлениями.

Необходимость Исследования

Хотя PRMs были обширно изучены в задачах языка, их применение в мультимодальных настройках на сегодняшний день остается в значительной степени невостребованным. Большинство моделей вознаграждений в области визуального-языкового взаимодействия продолжают опираться на подход ORM, что подчеркивает необходимость дальнейших исследований по улучшению мультимодального обучения и рассуждений с помощью PRMs.

Существующие Измерения Наград

Существующие эталоны наград в основном фокусируются на текстовых моделях, некоторые из которых специально разработаны для PRMs. В области визуально-языкового взаимодействия методы оценки обычно оценивают общие возможности моделей, включая знания, рассуждение, справедливость и безопасность. VL-RewardBench является первым эталоном, включающим данные о предпочтениях из обучения с подкреплением для уточнения задач, требующих высоких знаний. Мультимодальный RewardBench расширяет критерии оценки за пределами стандартных задач визуального вопросов-ответов (VQA), охватывая шесть ключевых областей: правильность, предпочтение, знания, рассуждение, безопасность и VQA, с использованием экспертных аннотаций.

Исследования и Результаты

Исследователи из UC Santa Cruz, UT Dallas и Amazon Research оценили VLLMs как ORMs и PRMs по нескольким задачам, показав, что ни один из подходов не consistently превосходит другой. Чтобы устранить пробелы в оценке, они представили VILBENCH, эталон, требующий пошаговой обратной связи о наградах, где GPT-4o с Chain-of-Thought достиг всего 27.3% точности. Дополнительно они собрали 73.6K образцов вознаграждений визуально-языкового общения, используя улучшенный алгоритм поиска в дереве, обучая 3B PRM, который улучшил точность оценки на 3.3%. Их исследование предоставляет представление о моделировании наград в визуально-языковом контексте и подчеркивает проблемы в пошаговой оценке мультимодальных моделей.

AI Technology

Проблемы с Моделями Вознаграждений

Результаты показывают, что PRMs, как правило, превосходят ORMs, улучшая точность на 1.4%, хотя ответы o1 показали минимальное различие из-за недостатка детализации. ViLPRM превзошел другие PRMs, включая URSA, на 0.9%, демонстрируя лучшую согласованность в выборе ответов. Однако текущие VLLMs недостаточно надежны как модели наград, что подчеркивает необходимость специализированных PRMs в области визуально-языкового общения.

Заключение и Будущее Развитие

В заключение, PRMs показывают хорошие результаты, когда шаги рассуждений четко сегментированы, как это видно в структурированных задачах, таких как математика. Однако в функциях с нечеткими сегментациями шагов PRMs могут снижать точность, особенно в визуально доминирующих случаях. Повышение приоритета ключевых шагов вместо равного отношения ко всем приводит к улучшению результатов. Также текущие мультимодальные модели вознаграждений сталкиваются с трудностями в обобщении, поскольку PRMs, обученные на конкретных областях, зачастую не справляются в других.

Практические Рекомендации

  • Изучите возможности автоматизации процессов. Найдите моменты взаимодействия с клиентами, где искусственный интеллект может добавить наибольшую ценность.
  • Определите ключевые показатели для оценки воздействия вашего инвестиции в ИИ на бизнес.
  • Выберите инструменты, которые соответствуют вашим потребностям и позволяют их адаптировать для достижения целей.
  • Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.

Если вам нужна помощь в управлении ИИ в бизнесе, пожалуйста, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подпишитесь на наш Telegram.

Посмотрите практический пример решения на основе ИИ: продажный бот, предназначенный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах пути клиента.


Новости в сфере искусственного интеллекта