Новый фреймворк ИИ для автономного улучшения веб-агентов с ограниченным участием человека
Большие языковые модели (LLM) достигли значительного прогресса в области искусственного интеллекта, революционизируя обработку естественного языка и взаимодействие. Однако даже самые сложные LLM, такие как LLaMa 3, сталкиваются с серьезными проблемами при выполнении задач, требующих многократного рассуждения и принятия решений в динамических интерактивных средах. Традиционные методики обучения, сильно зависящие от статических наборов данных, должны подготовить эти модели к применению в реальных условиях, особенно в веб-навигации, где адаптивность и сложные рассуждения являются ключевыми. Исследователи MultiOn представили Agent Q – инновационного автономного веб-агента, который разработан для решения этих проблем. Построенный на основе LLaMa 3, Agent Q объединяет передовые техники поиска, самокритику и обучение с подкреплением, изменяя способ навигации и взаимодействия LLM с веб-средой. Продвигая границы автономных агентов, Agent Q устанавливает новый стандарт для применения ИИ в реальном мире.
Переход к новой парадигме в обучении искусственного интеллекта
Традиционные подходы к обучению LLM для динамических задач обычно включают надзорное дообучение на составленных наборах данных. Хотя эти методы эффективны в контролируемых сценариях, они часто должны улучшаться в сложных средах, требующих многократного рассуждения и адаптивного обучения. Основная проблема заключается в их склонности к производству неоптимальных результатов из-за накапливающихся ошибок и ограниченного исследования.
Новый метод обучения с использованием Agent Q
Agent Q – передовая структура, разработанная для преодоления этих проблем путем интеграции передовых техник поиска, механизмов самокритики и обучения с подкреплением. В отличие от традиционных методов, полагающихся на надзорное дообучение, Agent Q использует комбинацию управляемого поиска методом Монте-Карло и варианта алгоритма прямой оптимизации предпочтений. Этот подход позволяет агентам LLM изучать успешные и неуспешные траектории, значительно улучшая их способности к обобщению в сложных задачах многократного рассуждения.
Инновационная архитектура Agent Q состоит из нескольких ключевых компонентов, которые улучшают его производительность в интерактивных средах. Управляемый поиск методом Монте-Карло играет ключевую роль, автономно исследуя различные действия и веб-страницы, обеспечивая баланс исследования и эксплуатации. Дополнительно самокритика обеспечивает обратную связь на каждом шаге принятия решения, позволяя агенту улучшить свой процесс рассуждения. Кроме того, алгоритм прямой оптимизации предпочтений настраивает модель путем формирования пар предпочтений из данных, сгенерированных во время управляемого поиска методом Монте-Карло.
Результаты применения Agent Q в реальных сценариях невероятны. В серии экспериментов по бронированию на OpenTable Agent Q улучшил нулевую производительность LLaMa 3 с 18,6% до захватывающих 81,7% всего за один день автономного сбора данных. С дальнейшим онлайн-поиском эта успешность выросла до 95,4%, что представляет собой улучшение на 340%. Эти впечатляющие результаты подчеркивают способность Agent Q автономно улучшаться и адаптироваться, устанавливая новый стандарт для автономных веб-агентов.
В заключение, Agent Q представляет собой гигантский шаг вперед в развитии автономных веб-агентов. Решая ограничения традиционных методик обучения LLM, Agent Q представляет новую методику, объединяющую передовые техники поиска, самокритику ИИ и обучение с подкреплением. Этот подход улучшает способности принятия решений агентов и позволяет им непрерывно совершенствоваться в реальных динамических средах. С его впечатляющей производительностью и потенциалом для дальнейшего развития, Agent Q устанавливает новый стандарт для автономной веб-навигации, открывая путь для более интеллектуальных и адаптивных ИИ-агентов.
Проверьте статью и подробности. Вся заслуга за эту работу принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему Telegram-каналу и группе LinkedIn. Если вам нравится наша работа, вам понравится наша рассылка.. Не забудьте присоединиться к нашему подпрограмме AI Webinars здесь
Arcee AI представляет Arcee Swarm: новаторское смешение агентов, вдохновленное кооперативным интеллектом, найденным в самой природе