Itinai.com it company office background blured photography by 1c555838 67bd 48d3 ad0a fee55b70a02d 3
Itinai.com it company office background blured photography by 1c555838 67bd 48d3 ad0a fee55b70a02d 3

WEB-SHEPHERD: Модель вознаграждения для эффективной навигации в интернете

WEB-SHEPHERD: Модель Награды Процесса для Веб-Агентов

Навигация по вебу включает в себя обучение машин взаимодействию с веб-сайтами для выполнения задач, таких как поиск информации, покупки или бронирование услуг. Разработка эффективных веб-агентов представляет собой сложную задачу из-за необходимости понимания структуры сайтов, интерпретации целей пользователей и принятия последовательных решений. Кроме того, агенты должны адаптироваться к динамичным веб-средам, где контент часто меняется, и многомодальная информация, такая как текст и изображения, должна восприниматься вместе.

Проблемы Современных Моделей

Серьезной проблемой в навигации по вебу является отсутствие надежных и детализированных моделей награды для управления агентами в реальном времени. Современные методологии в основном зависят от многомодальных больших языковых моделей (MLLM), таких как GPT-4o и GPT-4o-mini, которые могут быть дорогими, медленными и часто неточными, особенно при выполнении многошаговых задач. Эти модели обычно предоставляют оценки на основе подсказок или бинарную обратную связь (успех/неудача), но не предлагают пошагового руководства, что приводит к ошибкам, таким как повторяющиеся действия или пропуск критических шагов, таких как нажатие на определенные кнопки или заполнение форм. Это ограничение затрудняет развертывание веб-агентов в практических сценариях, где важны эффективность, точность и экономическая целесообразность.

Решение: WEB-SHEPHERD

Исследовательская группа из Университета Ёнсей и Университета Карнеги-Меллон представила WEB-SHEPHERD, модель награды процесса, специально разработанную для задач навигации по вебу. WEB-SHEPHERD — это первая модель, которая оценивает веб-агентов на уровне шагов, используя структурированные контрольные списки для оценок. Исследователи также разработали набор данных WEBPRM COLLECTION, состоящий из 40,000 аннотированных задач навигации по вебу на уровне шагов, и эталон WEBREWARDBENCH для оценки моделей награды процесса (PRM). Эти ресурсы позволяют WEB-SHEPHERD предоставлять детализированную обратную связь, разбивая сложные задачи на более мелкие, измеримые подцели.

Как Работает WEB-SHEPHERD

WEB-SHEPHERD генерирует контрольный список для каждой задачи на основе инструкций пользователя, таких как «Поиск продукта» или «Нажмите на страницу продукта», и оценивает прогресс агента по этим подцелям. Модель использует предсказание следующего токена для генерации обратной связи и присваивает награды на основе выполнения контрольного списка. Этот подход позволяет WEB-SHEPHERD оценивать правильность каждого шага с тонкой оценкой. Модель оценивает награду за каждый шаг, комбинируя вероятности токенов «Да», «Нет» и «В процессе» и усредняя их по контрольному списку. Эта детализированная система оценки обеспечивает агентов целенаправленной обратной связью, улучшая их способность навигировать по сложным веб-сайтам.

Доказанная Эффективность

Исследователи продемонстрировали, что WEB-SHEPHERD значительно превосходит существующие модели. На эталоне WEBREWARDBENCH WEB-SHEPHERD достиг среднего обратного ранга (MRR) 87.6% и точности траектории 55% в текстовом режиме, по сравнению с 47.5% MRR и 0% точности траектории для GPT-4o-mini без контрольных списков. В тестах с использованием WebArena-lite с GPT-4o-mini в качестве модели политики WEB-SHEPHERD достиг 34.55% уровня успеха, что на 10.9 пунктов выше, чем когда GPT-4o-mini выступал в роли оценщика, при этом также будучи в десять раз более экономически эффективным. Исследования показали, что производительность WEB-SHEPHERD значительно снижалась при удалении контрольных списков или обратной связи, подчеркивая их важность для точного назначения наград. Интересно, что многомодальный ввод не всегда улучшал производительность и иногда вводил шум.

Заключение

Это исследование подчеркивает критическую роль детализированных наград на уровне процессов в разработке надежных веб-агентов. Работа решает основную задачу навигации по вебу — оценку сложных многошаговых действий — и представляет решение, которое является как масштабируемым, так и экономически эффективным. С WEB-SHEPHERD агенты теперь могут получать точную обратную связь во время навигации, что позволяет им принимать лучшие решения и более эффективно выполнять задачи.

Дополнительные Ресурсы

Для получения дополнительных сведений ознакомьтесь с документом и страницей на GitHub. Все заслуги за это исследование принадлежат исследователям этого проекта. Также не стесняйтесь подписываться на нас в Twitter и присоединяться к нашему ML SubReddit с более чем 95,000 участниками, чтобы оставаться в курсе событий.

Практические Решения для Вашего Бизнеса

Изучите, как технологии искусственного интеллекта могут преобразовать ваш подход к работе, например: эта статья о модели WEB-SHEPHERD демонстрирует 40,000 набор данных и 10-кратную экономию затрат.

Автоматизация Процессов

Ищите возможности для автоматизации процессов. Найдите моменты в взаимодействии с клиентами, где искусственный интеллект может добавить наибольшую ценность.

Определение KPI

Определите важные ключевые показатели эффективности (KPI), чтобы убедиться, что ваши инвестиции в ИИ действительно оказывают положительное влияние на бизнес.

Выбор Инструментов

Выбирайте инструменты, которые соответствуют вашим потребностям и позволяют настраивать их в соответствии с вашими целями.

Постепенное Внедрение

Начните с небольшого проекта, соберите данные о его эффективности, а затем постепенно расширяйте использование ИИ в вашей работе.

Контактная Информация

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram.

Пример Решения на Основе ИИ

Посмотрите на практический пример решения на основе ИИ: бот для продаж с itinai.ru/aisales, предназначенный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах пути клиента.

ИИ Бизнес-инкубатор itinai.ru будет работать на вас. Получите свой цифровой продукт и готовую модель дохода

ИИ-агенты интеллектуальная автоматизация бизнеса

Готовые ИТ — решения для бизнеса

Новости в сфере искусственного интеллекта