“`html
Language-Guided World Models (LWMs): Enhancing Agent Controllability and Compositional Generalization through Natural Language
Большие языковые модели (LLMs) привлекли значительное внимание в области искусственного интеллекта, особенно в разработке агентов на основе моделей. Эти агенты, оснащенные вероятностными моделями мира, могут предвидеть будущие состояния окружающей среды и планировать соответственно.
Исследователи из Принстонского университета, Университета Калифорнии и Беркли Университета Южной Калифорнии представляют языково-управляемые модели миров (LWM), которые предлагают уникальный подход к преодолению традиционных ограничений моделей мира.
Практические решения и ценность
LWMs представляют собой уникальный класс моделей миров, разработанных для интерпретации языковых описаний и имитации динамики окружающей среды. Эти модели решают ограничения наблюдательных моделей мира, позволяя людям легко адаптировать свое поведение через естественное общение. LWMs могут использовать существующие тексты, сокращая необходимость в обширном интерактивном опыте и усилиях по настройке людей.
Предлагаемый подход к моделированию использует архитектуру кодировщик-декодер Transformer с специализированным механизмом внимания под названием EMMA (Entity Mapper with Multi-modal Attention). Этот механизм идентифицирует описания сущностей и извлекает соответствующую информацию об атрибутах.
Оценка LWMs на бенчмарке MESSENGER-WM привела к нескольким ключевым результатам:
- Потери перекрестной энтропии: модель EMMA-LWM последовательно превзошла все базовые модели в более сложных разделах NewAttr и NewAll, приближаясь к производительности модели OracleParse.
- Композиционная обобщенность: модель EMMA-LWM продемонстрировала превосходную способность интерпретировать ранее не виденные руководства и точно имитировать динамику по сравнению с Наблюдательной моделью, которую легко обмануть случайными корреляциями.
- Базовая производительность: Стандартная модель проявила чувствительность к инициализации, в то время как модель GPTHard не оправдала ожиданий, возможно из-за неполного извлечения идентичности и выгоды совместного изучения извлечения идентичности и атрибутов.
- Генерация воображаемой траектории: модель EMMA-LWM превзошла все базовые модели по метрикам, таким как прогноз расстояния (∆dist), точность ненулевого вознаграждения и точность завершения на всех уровнях сложности (NewCombo, NewAttr, NewAll).
Эти результаты подчеркивают эффективность EMMA-LWM в композиционной обобщенности и точной имитации динамики окружающей среды на основе языковых описаний, превосходя другие подходы в сложном бенчмарке MESSENGER-WM.
LWMs представляют собой значительное достижение в области искусственного интеллекта, предлагая уникальный подход к адаптации моделей через естественные языковые инструкции. Эти модели имеют несколько преимуществ перед традиционными наблюдательными моделями мира, потенциально революционизируя способ взаимодействия искусственных агентов с их окружением.
“`