ScreenSpot-Pro: Первый тест для многофункциональных ИИ в профессиональных графических интерфейсах и компьютерных средах

 ScreenSpot-Pro: The First Benchmark Driving Multi-Modal LLMs into High-Resolution Professional GUI-Agent and Computer-Use Environments

“`html

Проблемы GUI-агентов в профессиональной среде

GUI-агенты сталкиваются с тремя основными проблемами:

  • Сложность приложений: Профессиональные приложения более сложные, чем обычные программы, и требуют глубокого понимания интерфейсов.
  • Высокое разрешение: Профессиональные инструменты имеют высокое разрешение, что делает элементы управления меньше и снижает точность.
  • Дополнительные инструменты: Использование дополнительных документов усложняет рабочие процессы.

Эти проблемы подчеркивают необходимость в новых решениях для повышения эффективности GUI-агентов.

Недостатки существующих моделей

Текущие модели и стандарты для GUI-агентов не соответствуют требованиям профессиональной среды:

  • Инструменты, такие как ScreenSpot, предназначены для задач с низким разрешением и не могут точно моделировать реальные сценарии.
  • Модели, такие как OS-Atlas и UGround, неэффективны и не справляются с маленькими целями или интерфейсами, насыщенными иконками.
  • Отсутствие многоязычной поддержки ограничивает их применение в глобальных рабочих процессах.

Решение: ScreenSpot-Pro

Команда исследователей представила ScreenSpot-Pro — новый стандарт для профессиональных высокоразрешающих сред. Этот стандарт включает:

  • Набор данных из 1,581 задач в 23 приложениях различных отраслей.
  • Высококачественные изображения и экспертные аннотации для точности.
  • Многоязычные инструкции на английском и китайском языках.

ScreenSpot-Pro документирует реальные рабочие процессы, что позволяет оценивать и развивать модели GUI-агентов.

Преимущества набора данных ScreenSpot-Pro

Набор данных включает:

  • Реалистичные сценарии с высококачественными изображениями.
  • Сложные элементы интерфейса, составляющие всего 0.07% экрана.
  • Сбор данных профессиональными пользователями для точных аннотаций.

Эти характеристики делают его полезным для оценки и улучшения точности GUI-агентов.

Анализ текущих моделей

Анализ моделей с использованием ScreenSpot-Pro показывает значительные недостатки:

  • OS-Atlas-7B достиг максимальной точности 18.9%.
  • Методы, такие как ReGround, показали улучшение до 40.2% с помощью многоступенчатого подхода.
  • Малые элементы, такие как иконки, создают сложности, а двуязычные задания подчеркивают ограничения моделей.

Эти результаты подчеркивают необходимость в улучшенных методах для повышения понимания контекста.

Заключение

ScreenSpot-Pro устанавливает новый стандарт для оценки GUI-агентов в профессиональных средах. Он предлагает разнообразный и точный набор данных, что способствует инновациям в области GUI. Это поможет создать более умные и эффективные агенты, повышая продуктивность и инновации в различных отраслях.

Как использовать ИИ для развития вашей компании

Чтобы ваша компания развивалась с помощью ИИ:

  • Проанализируйте, как ИИ может изменить вашу работу.
  • Определите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ.
  • Выберите подходящее решение из множества доступных вариантов ИИ.
  • Внедряйте ИИ постепенно, начиная с небольших проектов и анализируя результаты.

Если вам нужны советы по внедрению ИИ, пишите нам в Telegram.

Следите за новостями о ИИ в нашем Telegram-канале или в Twitter.

Попробуйте AI Sales Bot — помощника в продажах, который отвечает на вопросы клиентов и генерирует контент для отдела продаж.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab.

“`

Полезные ссылки: