Itinai.com it company office background blured chaos 50 v 7b8006c7 4530 46ce 8e2f 40bbc769a42e 2
Itinai.com it company office background blured chaos 50 v 7b8006c7 4530 46ce 8e2f 40bbc769a42e 2

Apple выпустила бенчмарк для оценки возможностей использования инструментов LLM: разговорный и интерактивный бенчмарк.

Легче сразу спросить 💭

AI снижает операционные расходы на 20–40% 📊 за 6 месяцев. А что бы вы сделали с этими деньгами?

Опишите задачу — обсудим, как это можно реализовать у вас.

ИИ автоматизирует 70% рутинных задач 🤖 за 3 месяца. Какие процессы в вашем бизнесе скинуть роботу?
Персонализированные AI-кампании увеличивают клиентскую базу на 30% 📈. Как это работает?
AI-аналитика сокращает ошибки в прогнозах на 50% 📉. Расскажите подробнее!
 ToolSandbox LLM Tool-Use Benchmark Released by Apple: A Conversational and Interactive Evaluation Benchmark for LLM Tool-Use Capabilities

«`html

Современные модели языка (LLM) как автономные агенты

Современные модели языка (LLM) все чаще рассматриваются как автономные агенты, способные взаимодействовать с реальным миром с использованием восприятия, принятия решений и действий.

Использование инструментов в LLM

Использование инструментов в LLM включает в себя: 1) распознавание необходимости инструмента; 2) выбор правильных инструментов; 3) выполнение действий для выполнения поставленных задач.

Оценка способностей LLM к использованию инструментов

Одной из важных тем в этой области является оценка способностей LLM к использованию инструментов. Основные проблемы, с которыми необходимо бороться, связаны с оценкой их способностей в реальной среде, где они должны учитывать состояние окружающей среды и взаимодействовать с ней.

Новый бенчмарк для оценки — ToolSandbox

Команда исследователей Apple представила новый бенчмарк для оценки ToolSandbox, который предназначен для оценки специфических способностей LLM к использованию инструментов в состоянии и интерактивных разговорных ситуациях. ToolSandbox создает среду выполнения на Python, в которой LLM взаимодействует со смоделированным пользователем и набором инструментов для выполнения задач.

Инновации в ToolSandbox

Одной из ключевых инноваций ToolSandbox является введение состояний инструментов, зависящих от текущего состояния окружающей среды для их корректной работы. Это позволяет более реалистично оценить способности LLM в условиях реальной жизни.

Результаты бенчмарка ToolSandbox

Бенчмарк ToolSandbox выявил различия в производительности между различными LLM, подчеркивая значительные расхождения между проприетарными и открытыми моделями. Открытые модели, такие как Hermes-2-Pro-Mistral-7B, испытывают сложности с задачами, связанными с состояниями и канонизацией, в отличие от проприетарных моделей, например, GPT-4o от OpenAI.

Дальнейшая работа и развитие в этом направлении могут привести к улучшению способностей LLM к решению сложных и многоэтапных задач, постоянно меняющихся в реальном мире.

Подробнее о работе исследователей можно узнать в Paper и на GitHub.

«`

Полезные ссылки:

Новости в сфере искусственного интеллекта