“`html
Технологические достижения в области сенсоров, искусственного интеллекта и вычислительной мощности за последние десятилетия подняли навигацию роботов на новый уровень. Чтобы внедрить робототехнику в повседневную жизнь, исследования предлагают перенести пространство естественного языка ObjNav и VLN в мультимодальное пространство, чтобы робот мог одновременно следовать командам как в текстовом, так и визуальном виде. Этот тип морской деятельности исследователи называют Мультимодальной Инструкционной Навигацией (MIN).
MIN включает в себя широкий спектр действий, включая изучение окружающей среды и выполнение инструкций для навигации. Однако использование демонстрационного тура, охватывающего всю область, позволяет избежать необходимости частого исследования.
Исследование Google DeepMind представляет и изучает класс задач, называемых Мультимодальной Инструкционной Навигацией с Турами (MINT). MINT использует демонстрационные туры и занимается выполнением мультимодальных пользовательских инструкций. Значительные возможности массовых моделей видения и языка (VLM) в интерпретации языка и изображений, а также в рассуждениях на основе здравого смысла, недавно продемонстрировали значительный потенциал в решении MINT.
Для решения MINT команда предлагает Mobility VLA, иерархическую навигационную политику Vision-Language-Action (VLA), которая объединяет знание окружающей среды и способность интуитивного рассуждения на основе длинных контекстов VLM с сильной навигационной политикой на нижнем уровне, построенной на топологических сетях.
Тестирование Mobility VLA в офисной и жилой среде показало многообещающие результаты, подтверждающие его способности в реальных сценариях.
Для ускорения вывода высокоуровневых VLM и повышения скорости вывода рекомендуется кэширование демонстрационного тура.
Благодаря низкому спросу на вычислительные мощности и требованию только RGB-камеры, Mobility VLA может быть реализован на множестве роботов.
Подробнее о исследовании можно узнать в статье. Все права на это исследование принадлежат его авторам.
Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.
Если вам нравится наша работа, вам понравится и наша рассылка.
Не забудьте присоединиться к нашему SubReddit.
“`