Улучшение управляемости агента и композиционной обобщаемости через естественный язык

 Language-Guided World Models (LWMs): Enhancing Agent Controllability and Compositional Generalization through Natural Language

“`html

Language-Guided World Models (LWMs): Enhancing Agent Controllability and Compositional Generalization through Natural Language

Большие языковые модели (LLMs) привлекли значительное внимание в области искусственного интеллекта, особенно в разработке агентов на основе моделей. Эти агенты, оснащенные вероятностными моделями мира, могут предвидеть будущие состояния окружающей среды и планировать соответственно.

Исследователи из Принстонского университета, Университета Калифорнии и Беркли Университета Южной Калифорнии представляют языково-управляемые модели миров (LWM), которые предлагают уникальный подход к преодолению традиционных ограничений моделей мира.

Практические решения и ценность

LWMs представляют собой уникальный класс моделей миров, разработанных для интерпретации языковых описаний и имитации динамики окружающей среды. Эти модели решают ограничения наблюдательных моделей мира, позволяя людям легко адаптировать свое поведение через естественное общение. LWMs могут использовать существующие тексты, сокращая необходимость в обширном интерактивном опыте и усилиях по настройке людей.

Предлагаемый подход к моделированию использует архитектуру кодировщик-декодер Transformer с специализированным механизмом внимания под названием EMMA (Entity Mapper with Multi-modal Attention). Этот механизм идентифицирует описания сущностей и извлекает соответствующую информацию об атрибутах.

Оценка LWMs на бенчмарке MESSENGER-WM привела к нескольким ключевым результатам:

  • Потери перекрестной энтропии: модель EMMA-LWM последовательно превзошла все базовые модели в более сложных разделах NewAttr и NewAll, приближаясь к производительности модели OracleParse.
  • Композиционная обобщенность: модель EMMA-LWM продемонстрировала превосходную способность интерпретировать ранее не виденные руководства и точно имитировать динамику по сравнению с Наблюдательной моделью, которую легко обмануть случайными корреляциями.
  • Базовая производительность: Стандартная модель проявила чувствительность к инициализации, в то время как модель GPTHard не оправдала ожиданий, возможно из-за неполного извлечения идентичности и выгоды совместного изучения извлечения идентичности и атрибутов.
  • Генерация воображаемой траектории: модель EMMA-LWM превзошла все базовые модели по метрикам, таким как прогноз расстояния (∆dist), точность ненулевого вознаграждения и точность завершения на всех уровнях сложности (NewCombo, NewAttr, NewAll).

Эти результаты подчеркивают эффективность EMMA-LWM в композиционной обобщенности и точной имитации динамики окружающей среды на основе языковых описаний, превосходя другие подходы в сложном бенчмарке MESSENGER-WM.

LWMs представляют собой значительное достижение в области искусственного интеллекта, предлагая уникальный подход к адаптации моделей через естественные языковые инструкции. Эти модели имеют несколько преимуществ перед традиционными наблюдательными моделями мира, потенциально революционизируя способ взаимодействия искусственных агентов с их окружением.

“`

Полезные ссылки: