ToolHop: Новый набор данных для оценки LLM в сценариях многократного использования инструментов

 ToolHop: A Novel Dataset Designed to Evaluate LLMs in Multi-Hop Tool Use Scenarios

“`html

Многошаговые запросы и их значение

Многошаговые запросы представляют собой сложные задачи для больших языковых моделей (LLM). Они требуют нескольких шагов анализа и информации из разных источников. Эти запросы важны для оценки понимания и логического мышления моделей.

Что такое ToolHop?

Исследователи из Фуданского университета и ByteDance разработали набор данных ToolHop для оценки многошаговых инструментов. Он включает 995 тщательно разработанных пользовательских запросов и 3912 связанных инструментов. ToolHop решает проблемы с помощью разнообразных запросов, локально исполняемых инструментов и проверяемых ответов.

Ключевые стадии подхода ToolHop

  • Создание инструментов: Создаются документы для инструментов на основе многошаговых запросов, которые структурируются для обеспечения взаимозависимости.
  • Уточнение документов: Документы проходят фильтрацию для поддержки оценки моделей в сложных сценариях, вводятся новые функции для расширения функциональности.
  • Генерация кода: Генерируются функции для локального исполнения, которые позволяют взаимодействовать между моделью и инструментами.

Результаты исследования

ToolHop оценивался на четырнадцати языковых моделях из пяти семейств. Использование инструментов увеличивало производительность моделей в среднем на 12%. Модели все еще имели около 10% случаев «галлюцинации» ответов.

Заключение

ToolHop предоставляет комплексный набор данных для оценки многошаговых запросов. Хотя LLM значительно улучшили свои возможности, есть еще много возможностей для роста.

Как внедрить ИИ в ваш бизнес

Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, внимательно изучите ToolHop.

  • Проанализируйте, как ИИ может изменить вашу работу.
  • Определите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ.
  • Выберите подходящее ИИ-решение и начните с малого проекта.
  • Постепенно расширяйте автоматизацию на основе полученных данных и опыта.

Получите помощь и советы

Если вам нужны советы по внедрению ИИ, свяжитесь с нами через наш Телеграм-канал. Следите за новостями о ИИ в нашем Телеграме или в Твиттере.

Попробуйте AI Sales Bot

Этот AI-ассистент в продажах помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.

Измените свои процессы с AI Lab

Узнайте, как ИИ может изменить ваши процессы. Будущее уже здесь!

“`

Полезные ссылки: