ByteDance представила UI-TARS-1.5: новый открытый мультимодальный ИИ-агент для автоматизации GUI

ByteDance представляет UI-TARS-1.5: открытый многомодальный ИИ-агент на основе мощной модели “визуальный-языковой”

Компания ByteDance выпустила UI-TARS-1.5, обновленную версию своей многомодальной платформы, ориентированной на взаимодействие с графическими пользовательскими интерфейсами (GUI) и игровыми окружениями. UI-TARS-1.5, построенный на модели “визуальный-языковой”, способен воспринимать содержимое экрана и выполнять интерактивные задачи, обеспечивая стабильные улучшения по множеству показателей автоматизации GUI и логического мышления в играх. Модель превосходит несколько ведущих аналогов, включая OpenAI’s Operator и Anthropic’s Claude 3.7, как по точности, так и по завершению задач в различных средах.

Подход “родного агента” к взаимодействию с GUI

В отличие от моделей, использующих инструменты или архитектуры вызова функций, UI-TARS-1.5 обучается от начала до конца для восприятия визуального ввода (скриншоты) и генерации действий, подобных человеческим, таких как движение мыши и ввод с клавиатуры. Это приближает модель к тому, как пользователи взаимодействуют с цифровыми системами.

Ключевые улучшения UI-TARS-1.5

  • Интеграция восприятия и логического мышления: Модель совместно кодирует изображения экрана и текстовые инструкции, поддерживая сложное понимание задач и визуальное основание.
  • Единое пространство действий: Представление действий разработано как платформонезависимое, обеспечивая согласованный интерфейс для настольных, мобильных и игровых сред.
  • Саморазвитие через воспроизводимые данные: Тренировочный процесс включает данные о взаимодействиях, позволяя модели итеративно улучшать свое поведение.

Оценка и бенчмаркинг

Модель была оценена по нескольким бенчмаркам, которые анализируют поведение агентов в задачах GUI и игровых задачах, обеспечивая стандартизированный подход к оценке производительности.

Задачи для агентов GUI

  • OSWorld (100 шагов): Уровень успеха UI-TARS-1.5 составляет 42.5%, что выше, чем у OpenAI Operator (36.4%) и Claude 3.7 (28%).
  • Windows Agent Arena (50 шагов): Модель достигает 42.1%, что значительно превышает предыдущие показатели (например, 29.8%).
  • Android World: Модель достигает 64.2% успеха, что свидетельствует о ее универсальности для мобильных операционных систем.

Визуальное основание и понимание экрана

  • ScreenSpot-V2: Модель достигает 94.2% точности в локализации элементов GUI.
  • ScreenSpotPro: В более сложном бенчмарке, UI-TARS-1.5 набирает 61.6%.

Игровые окружения

  • Poki Games: UI-TARS-1.5 достигает 100% завершения задач в 14 мини-играх.
  • Minecraft (MineRL): Модель достигает 42% успеха в задачах добычи ресурсов.

Доступность и инструменты

UI-TARS-1.5 доступен в открытом доступе по лицензии Apache 2.0.

Кроме того, проект предлагает подробную документацию, данные о воспроизведении и инструменты оценки для облегчения экспериментов.

Заключение

UI-TARS-1.5 представляет собой значительный шаг вперед в области многомодальных ИИ-агентов, особенно в управлении GUI и визуальном логическом мышлении. Модель демонстрирует сильные результаты в различных интерактивных средах.

Как автоматизировать процессы в вашем бизнесе

Посмотрите, какие процессы можно автоматизировать. Найдите моменты в взаимодействиях с клиентами, где искусственный интеллект может добавить наибольшую ценность. Определите важные KPI, чтобы убедиться, что ваши инвестиции в ИИ действительно положительно влияют на бизнес.

Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе. Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru.

Также не забудьте подписаться на наш Telegram и следите за последними новостями ИИ.

AI Image

Новости в сфере искусственного интеллекта