“`html
NavGPT-2: Интеграция LLM и сетей навигационной политики для более умных агентов
LLM отлично обрабатывают текстовые данные, а VLN включает в себя визуальную информацию. Эффективное сочетание этих модалностей требует сложных техник для выравнивания и корреляции визуальных и текстовых представлений. Несмотря на значительные достижения в области LLM, существует разрыв в производительности, когда эти модели применяются к задачам VLN по сравнению с специализированными моделями, разработанными специально для навигации. LLM могут столкнуться с трудностями, такими как понимание пространственных отношений между объектами и положением агента, а также разрешение неоднозначных ссылок на основе визуального контекста.
Исследователи из Adobe Research, Университета Аделаиды, Австралия, Шанхайской лаборатории искусственного интеллекта, Китай, и Университета Калифорнии, США, представили NavGPT-2 для решения интеграции больших языковых моделей (LLM) с задачами видео- и языковой навигации (VLN). Исследование фокусируется на недостаточном использовании лингвистических интерпретационных способностей LLM, которые критически важны для генерации навигационного рассуждения и эффективного взаимодействия во время роботизированной навигации.
Текущие подходы к использованию LLM в задачах VLN включают методы нулевого шага, где LLM подаются текстовыми описаниями навигационной среды, и методы настройки, где LLM обучаются на парах инструкций-траекторий. Методы нулевого шага часто страдают от сложностей инженерии запросов и шумных данных из-за подписей изображений и резюмирования. Методы настройки, с другой стороны, не достигают производительности специализированных моделей VLN из-за недостаточных данных для обучения и несоответствия между целями предварительного обучения LLM и задачами VLN. Предложенное решение, NavGPT-2, направлено на устранение разрыва между навигацией на основе LLM и специализированными моделями VLN путем эффективного включения как LLM, так и сетей навигационной политики.
NavGPT-2 объединяет большую модель видео-языка (VLM) с сетью навигационной политики для улучшения возможностей VLN. VLM обрабатывает визуальные наблюдения с помощью Q-формера, который извлекает токены изображения, которые подаются на замороженный LLM для генерации навигационного рассуждения. Этот подход сохраняет лингвистические способности LLM и одновременно решает их ограниченное понимание пространственных структур. Система использует навигационную политику на основе топологического графа для сохранения памяти траектории агента и обеспечения эффективного возврата. Метод NavGPT-2 включает многоступенчатый процесс обучения, начиная с настройки визуальных инструкций и заканчивая интеграцией VLM с сетью навигационной политики.
Предложенная модель оценивается на наборе данных R2R, демонстрируя значительное улучшение производительности NavGPT-2 по сравнению с предыдущими методами на основе LLM и методами нулевого шага в показателях успешности и эффективности данных. Например, он превосходит производительность NaviLLM и NavGPT и показывает конкурентоспособные результаты по сравнению с передовыми специалистами VLN, такими как DUET.
В заключение, NavGPT-2 успешно решает ограничения интеграции LLM в задачи VLN путем эффективного сочетания лингвистических способностей LLM с специализированными навигационными политиками. Он отлично понимает и реагирует на сложные языковые инструкции, обрабатывает визуальную информацию и планирует эффективные навигационные пути. Преодолевая вызовы, такие как связывание языка с визией, обработка неоднозначных команд и адаптация к динамическим средам, NavGPT-2 открывает путь к более надежным и интеллектуальным автономным системам.
Проверьте статью и GitHub. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится наш новостной бюллетень.
Не забудьте присоединиться к нашему подпишитесь на наш SubReddit
Найдите предстоящие вебинары по ИИ здесь
Оригинальная статья опубликована на сайте MarkTechPost.
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте NavGPT-2: Integrating LLMs and Navigation Policy Networks for Smarter Agents
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.
Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.
На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на Telegram. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter itinairu45358
Попробуйте AI Sales Bot здесь. Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru будущее уже здесь!
“`