SimpleToM: Оценка способностей теории разума в больших языковых моделях

Itinai.com it company office background blured chaos 50 v d206c24f 918d 4335 b481 4a9e0737502d 0

«`html

SimpleToM: Оценка возможностей Теории Ума в Больших Языковых Моделях

Теория Ума (ToM) – это способность понимать мысли и предсказывать поведение других людей. Эта способность становится все более важной с развитием Больших Языковых Моделей (LLMs), которые активно используются в человеческих взаимодействиях и принятии решений.

Проблемы существующих методов

Текущие методы оценки ToM в LLM имеют ряд ограничений:

Чрезмерная зависимость от классических тестов, таких как задача Салли-Анны.
Недостаток разнообразия в сценариях с асимметрией информации.
Слишком большая зависимость от явных слов, таких как «видит» и «думает».
Неэффективная оценка неявного здравого смысла и практического применения ToM.

Введение в SimpleToM

Исследователи из Allen Institute for AI, Университета Вашингтона и Стэнфордского университета представили SimpleToM – новый набор данных для оценки возможностей ToM в LLM через короткие и разнообразные истории.

Как работает SimpleToM

SimpleToM использует трехуровневую структуру вопросов для тестирования различных аспектов ToM:

Осознание психического состояния: «Знает ли Мэри о плесени?»
Предсказание поведения: «Заплатит ли Мэри за чипсы или сообщит о плесени?»
Оценка поведения: «Мэри заплатила за чипсы. Это было разумно?»

Процесс создания и качество данных

SimpleToM включает строгий трехступенчатый процесс создания и контроля качества:

Создание начальных историй вручную.
Генерация вариантов историй с помощью LLM.
Тщательная проверка историй квалифицированными аннотаторами.

В результате было отобрано 1,147 высококачественных историй для тестирования возможностей ToM.

Анализ результатов

Анализ SimpleToM показывает, что современные модели, такие как GPT-4, демонстрируют высокую точность (>95%) в понимании психических состояний, но значительно хуже справляются с предсказанием поведения.

Практическое применение

SimpleToM представляет собой важный шаг вперед в оценке возможностей ToM в LLM. Это исследование подчеркивает необходимость более строгих тестов применяемой ToM для создания более социально компетентных ИИ-систем.