Новая работа об агенте AssistantBench и его использовании для сложных веб-задач

 This AI Paper Introduces AssistantBench and SeePlanAct: A Benchmark and Agent for Complex Web-Based Tasks

“`html

Искусственный интеллект (ИИ) в решении сложных веб-задач

Искусственный интеллект (ИИ) посвящен разработке систем, способных выполнять задачи, которые обычно требуют человеческого интеллекта. Одним из ключевых вызовов в области ИИ является создание систем, способных управлять сложными, реалистичными задачами, требующими обширного взаимодействия с динамическими окружениями. Такие задачи часто включают в себя поиск и синтез информации из веб-ресурсов, процесс, которому текущие модели нуждаются в помощи для достижения высокой точности и надежности. Этот разрыв в возможностях подчеркивает необходимость более продвинутых систем ИИ.

Проблемы и существующие методы

Существующие методы решения веб-задач включают в себя модели языковых моделей (LM) и модели с использованием поисково-дополненных LM. Модели “закрытой книги” полагаются исключительно на заранее существующие знания, закодированные в их параметрах, что часто приводит к генерации неверной информации. Модели с использованием поисково-дополненных данных пытаются собирать и использовать соответствующие данные из интернета. Однако качество и актуальность полученной информации могут значительно варьировать, что ограничивает общую эффективность этих моделей.

Новые решения

Исследователи из университетов Тель-Авива, Пенсильвании, Института AI, Университета Вашингтона и Принстонского университета представили новый бенчмарк под названием ASSISTANTBENCH для оценки способностей веб-агентов в выполнении реалистичных, затратных веб-задач. Этот бенчмарк состоит из 214 разнообразных задач, охватывающих различные области и требующих взаимодействия с веб-ресурсами. Кроме того, исследователи предложили SEEPLANACT (SPA) — новый веб-агент, разработанный для улучшения производительности задач путем включения компонента планирования и буфера памяти.

SPA основан на существующей модели SEEACT и внедряет несколько улучшений для улучшения навигации по веб-ресурсам и выполнения задач. Компонент планирования позволяет SPA стратегически подходить к каждой задаче, позволяя ему динамически перепланировать и корректировать свою стратегию на основе взаимодействия с веб-элементами. Буфер памяти сохраняет информацию, собранную во время задачи, позволяя SPA эффективно использовать эту информацию в течение всего времени выполнения задачи. Эти улучшения позволяют SPA более надежно взаимодействовать с веб-элементами, динамически навигировать и корректировать свой план по мере необходимости, обеспечивая более эффективное решение для выполнения сложных веб-задач.

Результаты и выводы

Оценка производительности SPA на бенчмарке ASSISTANTBENCH показала значительное улучшение по сравнению с предыдущими моделями. SPA достиг точности 11 баллов, что существенно превосходит 4,2 балла, достигнутые ранее моделью SEEACT. Более того, SPA продемонстрировал высокую точность, с увеличением на 10 баллов в количестве правильно отвеченных вопросов. Это улучшение в основном было обусловлено улучшенной способностью SPA навигировать в веб-окружениях и эффективно использовать собранную информацию. Несмотря на эти достижения, общая точность лучших моделей не превысила 25%, подчеркивая продолжающиеся вызовы в разработке высоконадежных веб-ориентированных решений ИИ.

В более подробных метриках производительности интеграция компонентов планирования и памяти в SPA позволила ему превзойти другие модели по показателям ответов и точности. Скорость ответов SPA составила 38,8%, по сравнению с 20% у предыдущей модели SEEACT. Точность SPA также оказалась выше, составив 29,0%, по сравнению с 19,6% у SEEACT. Комбинируя SPA с моделью “закрытой книги”, ансамблевая модель достигла лучшей общей производительности, с точностью 25,2 балла, дополнительно подчеркивая эффективность SPA в улучшении производительности задач.

В заключение, данное исследование подчеркивает критические вызовы в разработке систем ИИ, способных выполнять реалистичные, затратные веб-задачи. Введение ASSISTANTBENCH и SPA представляет собой значительный шаг в решении этих вызовов. Тем не менее, существует значительный разрыв в достижении надежных, высокоточных решений ИИ для навигации в вебе, что подчеркивает необходимость продолжения инноваций и улучшений в этой области. Достижения исследовательских команд университетов Тель-Авива, Пенсильвании, Института AI, Университета Вашингтона и Принстонского университета обнадеживают, но подчеркивают необходимость продолжения исследований и разработок для преодоления разрыва в возможностях веб-ориентированных систем ИИ.

Посмотрите статью и проект. Вся заслуга за это исследование принадлежит ученым этого проекта. Также не забудьте подписаться на нас в Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу на Reddit.

Находите предстоящие вебинары по ИИ здесь.

Оригинальная статья: This AI Paper Introduces AssistantBench and SeePlanAct: A Benchmark and Agent for Complex Web-Based Tasks

“`

Полезные ссылки: