Исследователи Google DeepMind представляют Mobility VLA: навигация по инструкциям с использованием длинных контекстов и топологических графов.

 Google DeepMind Researchers Present Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs

“`html

Технологические достижения в области сенсоров, искусственного интеллекта и вычислительной мощности за последние десятилетия подняли навигацию роботов на новый уровень. Чтобы внедрить робототехнику в повседневную жизнь, исследования предлагают перенести пространство естественного языка ObjNav и VLN в мультимодальное пространство, чтобы робот мог одновременно следовать командам как в текстовом, так и визуальном виде. Этот тип морской деятельности исследователи называют Мультимодальной Инструкционной Навигацией (MIN).

MIN включает в себя широкий спектр действий, включая изучение окружающей среды и выполнение инструкций для навигации. Однако использование демонстрационного тура, охватывающего всю область, позволяет избежать необходимости частого исследования.

Исследование Google DeepMind представляет и изучает класс задач, называемых Мультимодальной Инструкционной Навигацией с Турами (MINT). MINT использует демонстрационные туры и занимается выполнением мультимодальных пользовательских инструкций. Значительные возможности массовых моделей видения и языка (VLM) в интерпретации языка и изображений, а также в рассуждениях на основе здравого смысла, недавно продемонстрировали значительный потенциал в решении MINT.

Для решения MINT команда предлагает Mobility VLA, иерархическую навигационную политику Vision-Language-Action (VLA), которая объединяет знание окружающей среды и способность интуитивного рассуждения на основе длинных контекстов VLM с сильной навигационной политикой на нижнем уровне, построенной на топологических сетях.

Тестирование Mobility VLA в офисной и жилой среде показало многообещающие результаты, подтверждающие его способности в реальных сценариях.

Для ускорения вывода высокоуровневых VLM и повышения скорости вывода рекомендуется кэширование демонстрационного тура.

Благодаря низкому спросу на вычислительные мощности и требованию только RGB-камеры, Mobility VLA может быть реализован на множестве роботов.

Подробнее о исследовании можно узнать в статье. Все права на это исследование принадлежат его авторам.

Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.

Если вам нравится наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему SubReddit.

“`

Полезные ссылки: