
Проблемы современных VLM
Современные модели визуального и языкового понимания (VLM) сталкиваются с трудностями в выполнении задач, требующих сложного визуального рассуждения. Понимание изображения недостаточно, требуется более глубокая интерпретация. Хотя недавние достижения в языковых моделях (LLM) значительно улучшили текстовое рассуждение, аналогичный прогресс в визуальной области остается ограниченным.
Исследования в области многомодального ИИ
Предыдущие исследования в области многомодального ИИ в основном сосредоточены на обнаружении объектов, создании подписей и ответах на вопросы, с ограниченным изучением более сложного рассуждения. Некоторые исследования пытались улучшить VLM с помощью цепочек размышлений или явных структур рассуждения, но эти подходы либо ограничены текстовыми данными, либо не могут обобщаться на различные визуальные задачи.
Подходы к обучению VLM
Исследователи Groundlight изучили обучение VLM для визуального рассуждения с использованием обучения с подкреплением, применяя GRPO для повышения эффективности. Они разработали задачу по решению криптограммы, требующую как визуальной, так и текстовой обработки, и достигли 96% точности с моделью в 3 миллиарда параметров.
Проблемы и решения в обучении VLM
Обучение VLM с использованием GRPO сталкивается с несколькими проблемами, особенно в токенизации и дизайне вознаграждений. Для решения этих проблем исследователи форматировали сообщения с пробелами между буквами, чтобы упростить декодирование. Были использованы три типа вознаграждений для эффективного обучения модели.
Преимущества GRPO
GRPO оптимизирует обучение, сравнивая несколько выходов, что позволяет стабилизировать процесс обучения. Исследование также подчеркивает потенциал VLM в задачах, основанных на рассуждениях, и предлагает методы, такие как выборочная эскалация модели, для повышения эффективности.
Заключение и дальнейшие шаги
Команда Groundlight достигла значительных успехов в улучшении VLM, интегрировав техники обучения с подкреплением. Их методология будет доступна для широкой аудитории, что позволит развивать возможности визуального рассуждения в системах ИИ.
Практические рекомендации для бизнеса
Изучите, как технологии ИИ могут трансформировать ваш подход к работе. Найдите процессы, которые можно автоматизировать, и определите ключевые показатели эффективности (KPI) для оценки влияния ваших инвестиций в ИИ.
Начните с небольшого проекта, собирайте данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.
Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru.