Исследование способностей к теории ума: сравнение GPT-4 и LLaMA-2 с интеллектом человека
Команда психологов и исследователей из Университетского медицинского центра Гамбурга-Эппендорф, Итальянского института технологий в Дженоа, Трентинского университета и других учреждений исследовала развивающиеся способности ума к большим языковым моделям (LLM), таким как GPT-4, GPT-3.5 и LLaMA2-70B, и провела сравнение между LLM и человеческой производительностью. Теория ума, способность приписывать ментальные состояния себе и другим, является фундаментальной для социального взаимодействия людей. По мере развития ИИ и LLM возникает новая проблема: их способность понимания и навигации социальных сложностей на уровне человека. Это исследование направлено на систематическое сравнение способностей LLM к теории ума с участием человека в различных задачах, проливая свет на их сходства, различия и основные механизмы.
Оценка способностей LLM в теории ума
Для оценки способностей LLM к теории ума исследователи применяют систематический экспериментальный подход, вдохновленный психологией. Они используют последовательность хорошо установленных тестов на теорию ума, включая задачу намекания, задачу ложного убеждения, распознавание гафа и понимание иронии. Эти тесты охватывают спектр способностей теории ума, от базового понимания ложных убеждений до более сложных интерпретаций социальных ситуаций. LLM, включая GPT-4, GPT-3.5 и LLaMA2-70B, проходят множественные повторения каждого теста для надежного сравнения с человеческой производительностью. Каждая задача тестируется на уникальных входных данных, чтобы убедиться, что LLM не просто повторяют обучающие данные, а проявляют реальное понимание.
Исследователи тщательно проводят каждый тест как с группой LLM, так и с человеческими участниками в письменной форме для справедливого сравнения. Они анализируют ответы с использованием протоколов оценки, специфичных для каждого теста, сравнивая производительность моделей и людей. GPT-4 проявляет силы в понимании иронии, намеков и странных историй, часто превосходя человеческую производительность. Однако он испытывает трудности с неопределенными сценариями, такими как тест на гаф, где показывает нежелание делать выводы без полной уверенности. В отличие от этого, GPT-3.5 и LLaMA2-70B демонстрируют предвзятость к утверждению неуместных высказываний, что указывает на отсутствие дифференциации в понимании подразумеваемых знаний. Исследование говорит о том, что модели GPT осторожны, потому что они используют меры смягчения, чтобы уменьшить галлюцинации и улучшить точность фактов, что заставляет их быть чрезмерно осторожными, когда вещи неясны. Кроме того, бесплотная природа LLM без объективированных процессов принятия решений способствует различиям в обращении с социальной неопределенностью по сравнению с людьми.
В заключение исследование подчеркивает сложность оценки способностей LLM к теории ума и важность систематического тестирования для обеспечения значимого сравнения с человеческими познавательными способностями. В то время как LLM, такие как GPT-4, проявляют выдающиеся достижения в отдельных задачах теории ума, они оказываются недостаточными в неопределенных сценариях, что указывает на осторожную эпистемическую политику, возможно связанную с методикой обучения. Понимание этих различий критично для развития LLM, способных навигировать социальные взаимодействия с профессионализмом, характерным для людей.
Практические решения для вашего бизнеса
Если вы хотите использовать искусственный интеллект для развития вашей компании и оставаться на передовых позициях, важно грамотно применять теорию ума. Анализируйте, как ИИ может изменить вашу работу и определите области, подходящие для автоматизации. Найдите моменты, когда ваши клиенты могут извлечь выгоду из применения ИИ.
Определите ключевые показатели эффективности (KPI), которые вы хотите улучшить с помощью ИИ, и выберите подходящее решение из множества вариантов. Внедряйте ИИ постепенно, начав с небольших проектов, анализируя результаты и KPI.
Пользуясь полученными данными и опытом, расширяйте автоматизацию и используйте советы по внедрению ИИ, обращаясь за помощью в наш телеграм-канал t.me/itinainews или на Twitter @itinairu45358.
Попробуйте AI Sales Bot https://itinai.ru/aisales, который поможет отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.
Узнайте, как решения от AI Lab itinai.ru могут изменить ваши процессы, внедряйте ИИ и будущее вашего бизнеса уже здесь!