Набор данных MuMA-ToM для развития многозадачных теорий разумения в мультиагентных системах искусственного интеллекта

 MuMA-ToM: A Multimodal Benchmark for Advancing Multi-Agent Theory of Mind Reasoning in AI

“`html

Мультиагентный бенчмарк MuMA-ToM для развития теории разума в искусственном интеллекте

Понимание социальных взаимодействий в сложных реальных ситуациях требует глубокого мыслительного рассуждения для вывода основных ментальных состояний, определяющих эти взаимодействия, известных как Теория Разума (ToM). Социальные взаимодействия часто являются мультимодальными, включая действия, разговоры и прошедшие поведенческие реакции. Для того чтобы искусственный интеллект эффективно взаимодействовал в человеческих средах, он должен понимать эти ментальные состояния и их взаимосвязи. Несмотря на прогресс в машинной ТоМ, текущие бенчмарки в основном сосредотачиваются на отдельных ментальных состояниях и не имеют мультимодальных наборов данных для оценки мультимодальной ТоМ. Этот разрыв затрудняет разработку систем искусственного интеллекта, способных понимать тонкие социальные взаимодействия, что критически важно для безопасного взаимодействия человека с искусственным интеллектом.

Практические решения и ценность

Исследователи из Университета Джонса Хопкинса и Университета Вирджинии представили MuMA-ToM, первый бенчмарк для оценки мультимодального мультиагентного мыслительного процесса во воплощенных взаимодействиях. MuMA-ToM представляет видео и текст, описывающие реальные сценарии, и задает вопросы о целях агентов и их убеждениях относительно целей других. Они провели валидацию MuMA-ToM через человеческие эксперименты и представили LIMP (модель обратного мультиагентного планирования на основе языковой модели), новую модель ToM. LIMP превзошел существующие модели, включая GPT-4o и BIP-ALM, интегрируя двухуровневое рассуждение и устраняя необходимость в символьных представлениях. Работа подчеркивает разрыв между человеческой и машинной ТоМ.

Оценка моделей для понимания мультиагентных социальных взаимодействий

Бенчмарк MuMA-ToM оценивает модели для понимания мультиагентных социальных взаимодействий с использованием видео и текста. Он содержит 225 взаимодействий и 900 вопросов, сосредоточенных на трех концепциях ToM: вывод убеждений, вывод социальных целей и убеждений о целях. Взаимодействия процедурно генерируются с различными мультимодальными входами, вызывая вызов для моделей в эффективном объединении этой информации. Бенчмарк использует модель LIMP, которая интегрирует видео-языковые и языковые модели для вывода ментальных состояний. Точность человека высока, но даже лучшие модели, такие как Gemini 1.5 Pro и Llava 1.6, должны догнать.

Заключение

В заключение, MuMA-ToM – первый мультимодальный бенчмарк Теории Разума для оценки мыслительных процессов в сложных мультиагентных взаимодействиях. MuMA-ToM использует видео- и текстовые входы для оценки понимания целей и убеждений в реалистичных домашних условиях. Исследование систематически оценило человеческую производительность и протестировало современные модели, предложив модель LIMP (обратное мультиагентное планирование на основе языковой модели). LIMP превзошел существующие модели, включая GPT-4o и Gemini-1.5 Pro. Будущая работа будет расширять бенчмарк до более сложных реальных сценариев, включая взаимодействия с участием нескольких агентов и реальных видеороликов.

Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter и LinkedIn. Присоединяйтесь к нашему Telegram-каналу. Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему 50k+ ML SubReddit.

Попробуйте AI Sales Bot здесь. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab здесь. Будущее уже здесь!

“`

Полезные ссылки: