✅ Объединение языковых моделей и сетей управления для умных агентов

«`html

NavGPT-2: Интеграция LLM и сетей навигационной политики для более умных агентов

LLM отлично обрабатывают текстовые данные, а VLN включает в себя визуальную информацию. Эффективное сочетание этих модалностей требует сложных техник для выравнивания и корреляции визуальных и текстовых представлений. Несмотря на значительные достижения в области LLM, существует разрыв в производительности, когда эти модели применяются к задачам VLN по сравнению с специализированными моделями, разработанными специально для навигации. LLM могут столкнуться с трудностями, такими как понимание пространственных отношений между объектами и положением агента, а также разрешение неоднозначных ссылок на основе визуального контекста.

Исследователи из Adobe Research, Университета Аделаиды, Австралия, Шанхайской лаборатории искусственного интеллекта, Китай, и Университета Калифорнии, США, представили NavGPT-2 для решения интеграции больших языковых моделей (LLM) с задачами видео- и языковой навигации (VLN). Исследование фокусируется на недостаточном использовании лингвистических интерпретационных способностей LLM, которые критически важны для генерации навигационного рассуждения и эффективного взаимодействия во время роботизированной навигации.

Текущие подходы к использованию LLM в задачах VLN включают методы нулевого шага, где LLM подаются текстовыми описаниями навигационной среды, и методы настройки, где LLM обучаются на парах инструкций-траекторий. Методы нулевого шага часто страдают от сложностей инженерии запросов и шумных данных из-за подписей изображений и резюмирования. Методы настройки, с другой стороны, не достигают производительности специализированных моделей VLN из-за недостаточных данных для обучения и несоответствия между целями предварительного обучения LLM и задачами VLN. Предложенное решение, NavGPT-2, направлено на устранение разрыва между навигацией на основе LLM и специализированными моделями VLN путем эффективного включения как LLM, так и сетей навигационной политики.

NavGPT-2 объединяет большую модель видео-языка (VLM) с сетью навигационной политики для улучшения возможностей VLN. VLM обрабатывает визуальные наблюдения с помощью Q-формера, который извлекает токены изображения, которые подаются на замороженный LLM для генерации навигационного рассуждения. Этот подход сохраняет лингвистические способности LLM и одновременно решает их ограниченное понимание пространственных структур. Система использует навигационную политику на основе топологического графа для сохранения памяти траектории агента и обеспечения эффективного возврата. Метод NavGPT-2 включает многоступенчатый процесс обучения, начиная с настройки визуальных инструкций и заканчивая интеграцией VLM с сетью навигационной политики.

Предложенная модель оценивается на наборе данных R2R, демонстрируя значительное улучшение производительности NavGPT-2 по сравнению с предыдущими методами на основе LLM и методами нулевого шага в показателях успешности и эффективности данных. Например, он превосходит производительность NaviLLM и NavGPT и показывает конкурентоспособные результаты по сравнению с передовыми специалистами VLN, такими как DUET.

В заключение, NavGPT-2 успешно решает ограничения интеграции LLM в задачи VLN путем эффективного сочетания лингвистических способностей LLM с специализированными навигационными политиками. Он отлично понимает и реагирует на сложные языковые инструкции, обрабатывает визуальную информацию и планирует эффективные навигационные пути. Преодолевая вызовы, такие как связывание языка с визией, обработка неоднозначных команд и адаптация к динамическим средам, NavGPT-2 открывает путь к более надежным и интеллектуальным автономным системам.

Проверьте статью и GitHub. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему подпишитесь на наш SubReddit

Найдите предстоящие вебинары по ИИ здесь

Оригинальная статья опубликована на сайте MarkTechPost.

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте NavGPT-2: Integrating LLMs and Navigation Policy Networks for Smarter Agents

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на Telegram. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter itinairu45358

Попробуйте AI Sales Bot здесь. Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru будущее уже здесь!

«`

Объединение языковых моделей и сетей управления для умных агентов

NavGPT-2: Интеграция LLM и сетей навигационной политики для более умных агентов

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

AI в нише животных — бизнес для зоомагазина и блогера

Монетизация канала о фрилансе и удалённой работе

Монетизация экспертного канала по саморазвитию

Монетизация для фитнес тренера с помощью искусственного интеллекта

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Агент по автоматизации отчетности : генерация финансовых и операционных отчетов

ИИ-Агент для анализа данных о клиентах : выявление скрытых сегментов

ИИ-Специалист по автоматизации технической поддержки : диагностика и решение проблем

ИИ-Аналитик документов : извлечение данных из контрактов и отчетов

Как собрать потребности в обучении от руководителей: ИИ предложит форму опроса и шаблон презентации

Как рассчитать eNPS: искусственный интеллект сформирует опрос и интерпретацию показателя вовлеченности

Как оценить рентабельность нового продукта: ИИ построит расчет ROI и Unit-экономику

Как построить SEO-ядро для блога: ИИ подберет 30 ключевых слов по поисковым запросам ЦА

Как не упустить клиента после демо: искусственный интеллект составит follow-up письмо с вопросом и призывом

Как закрыть обращение с гарантией, что клиент доволен: ИИ предложит текст финального ответа

Лучший ИИ онлайн

Вышел Nephilim v3 8B: Инновационный подход ИИ к объединению моделей для улучшения ролевых игр и креативности

Фреймворк AgentInstruct для улучшения качества и разнообразия синтетических данных в обучении моделей искусственного интеллекта.

Продажа цифровых продуктов через AI-платформу

Руководство по созданию масштабируемых многопользовательских систем связи с использованием протокола ACP

Архитектура TRAMBA для улучшения звука на мобильных устройствах

Механистическое разучивание: новый метод ИИ для редактирования компонентов модели, связанных с запоминанием фактов.

DELTA: Новый метод ИИ, который в 10 раз быстрее отслеживает каждый пиксель в 3D-пространстве из монокулярных видео

AI-помощник для дизайнера-фрилансера

О нас

Подписка

Отказ от ответственности

Вакансии

Доступность

Куки-политика