Apple выпустила бенчмарк для оценки возможностей использования инструментов LLM: разговорный и интерактивный бенчмарк.

 ToolSandbox LLM Tool-Use Benchmark Released by Apple: A Conversational and Interactive Evaluation Benchmark for LLM Tool-Use Capabilities

“`html

Современные модели языка (LLM) как автономные агенты

Современные модели языка (LLM) все чаще рассматриваются как автономные агенты, способные взаимодействовать с реальным миром с использованием восприятия, принятия решений и действий.

Использование инструментов в LLM

Использование инструментов в LLM включает в себя: 1) распознавание необходимости инструмента; 2) выбор правильных инструментов; 3) выполнение действий для выполнения поставленных задач.

Оценка способностей LLM к использованию инструментов

Одной из важных тем в этой области является оценка способностей LLM к использованию инструментов. Основные проблемы, с которыми необходимо бороться, связаны с оценкой их способностей в реальной среде, где они должны учитывать состояние окружающей среды и взаимодействовать с ней.

Новый бенчмарк для оценки – ToolSandbox

Команда исследователей Apple представила новый бенчмарк для оценки ToolSandbox, который предназначен для оценки специфических способностей LLM к использованию инструментов в состоянии и интерактивных разговорных ситуациях. ToolSandbox создает среду выполнения на Python, в которой LLM взаимодействует со смоделированным пользователем и набором инструментов для выполнения задач.

Инновации в ToolSandbox

Одной из ключевых инноваций ToolSandbox является введение состояний инструментов, зависящих от текущего состояния окружающей среды для их корректной работы. Это позволяет более реалистично оценить способности LLM в условиях реальной жизни.

Результаты бенчмарка ToolSandbox

Бенчмарк ToolSandbox выявил различия в производительности между различными LLM, подчеркивая значительные расхождения между проприетарными и открытыми моделями. Открытые модели, такие как Hermes-2-Pro-Mistral-7B, испытывают сложности с задачами, связанными с состояниями и канонизацией, в отличие от проприетарных моделей, например, GPT-4o от OpenAI.

Дальнейшая работа и развитие в этом направлении могут привести к улучшению способностей LLM к решению сложных и многоэтапных задач, постоянно меняющихся в реальном мире.

Подробнее о работе исследователей можно узнать в Paper и на GitHub.

“`

Полезные ссылки: