“`html
Современные модели языка (LLM) как автономные агенты
Современные модели языка (LLM) все чаще рассматриваются как автономные агенты, способные взаимодействовать с реальным миром с использованием восприятия, принятия решений и действий.
Использование инструментов в LLM
Использование инструментов в LLM включает в себя: 1) распознавание необходимости инструмента; 2) выбор правильных инструментов; 3) выполнение действий для выполнения поставленных задач.
Оценка способностей LLM к использованию инструментов
Одной из важных тем в этой области является оценка способностей LLM к использованию инструментов. Основные проблемы, с которыми необходимо бороться, связаны с оценкой их способностей в реальной среде, где они должны учитывать состояние окружающей среды и взаимодействовать с ней.
Новый бенчмарк для оценки – ToolSandbox
Команда исследователей Apple представила новый бенчмарк для оценки ToolSandbox, который предназначен для оценки специфических способностей LLM к использованию инструментов в состоянии и интерактивных разговорных ситуациях. ToolSandbox создает среду выполнения на Python, в которой LLM взаимодействует со смоделированным пользователем и набором инструментов для выполнения задач.
Инновации в ToolSandbox
Одной из ключевых инноваций ToolSandbox является введение состояний инструментов, зависящих от текущего состояния окружающей среды для их корректной работы. Это позволяет более реалистично оценить способности LLM в условиях реальной жизни.
Результаты бенчмарка ToolSandbox
Бенчмарк ToolSandbox выявил различия в производительности между различными LLM, подчеркивая значительные расхождения между проприетарными и открытыми моделями. Открытые модели, такие как Hermes-2-Pro-Mistral-7B, испытывают сложности с задачами, связанными с состояниями и канонизацией, в отличие от проприетарных моделей, например, GPT-4o от OpenAI.
Дальнейшая работа и развитие в этом направлении могут привести к улучшению способностей LLM к решению сложных и многоэтапных задач, постоянно меняющихся в реальном мире.
Подробнее о работе исследователей можно узнать в Paper и на GitHub.
“`