ByteDance представила UI-TARS-1.5: новый открытый мультимодальный ИИ-агент для автоматизации GUI

Itinai.com two developers coding side by side in a minimalist 9e46852c 56ad 43df b8ce 5a8451c13b63 0

ByteDance представляет UI-TARS-1.5: открытый многомодальный ИИ-агент на основе мощной модели «визуальный-языковой»

Компания ByteDance выпустила UI-TARS-1.5, обновленную версию своей многомодальной платформы, ориентированной на взаимодействие с графическими пользовательскими интерфейсами (GUI) и игровыми окружениями. UI-TARS-1.5, построенный на модели «визуальный-языковой», способен воспринимать содержимое экрана и выполнять интерактивные задачи, обеспечивая стабильные улучшения по множеству показателей автоматизации GUI и логического мышления в играх. Модель превосходит несколько ведущих аналогов, включая OpenAI’s Operator и Anthropic’s Claude 3.7, как по точности, так и по завершению задач в различных средах.

Подход «родного агента» к взаимодействию с GUI

В отличие от моделей, использующих инструменты или архитектуры вызова функций, UI-TARS-1.5 обучается от начала до конца для восприятия визуального ввода (скриншоты) и генерации действий, подобных человеческим, таких как движение мыши и ввод с клавиатуры. Это приближает модель к тому, как пользователи взаимодействуют с цифровыми системами.

Ключевые улучшения UI-TARS-1.5

Интеграция восприятия и логического мышления: Модель совместно кодирует изображения экрана и текстовые инструкции, поддерживая сложное понимание задач и визуальное основание.
Единое пространство действий: Представление действий разработано как платформонезависимое, обеспечивая согласованный интерфейс для настольных, мобильных и игровых сред.
Саморазвитие через воспроизводимые данные: Тренировочный процесс включает данные о взаимодействиях, позволяя модели итеративно улучшать свое поведение.

Оценка и бенчмаркинг

Модель была оценена по нескольким бенчмаркам, которые анализируют поведение агентов в задачах GUI и игровых задачах, обеспечивая стандартизированный подход к оценке производительности.

Задачи для агентов GUI

OSWorld (100 шагов): Уровень успеха UI-TARS-1.5 составляет 42.5%, что выше, чем у OpenAI Operator (36.4%) и Claude 3.7 (28%).
Windows Agent Arena (50 шагов): Модель достигает 42.1%, что значительно превышает предыдущие показатели (например, 29.8%).
Android World: Модель достигает 64.2% успеха, что свидетельствует о ее универсальности для мобильных операционных систем.

Визуальное основание и понимание экрана

ScreenSpot-V2: Модель достигает 94.2% точности в локализации элементов GUI.
ScreenSpotPro: В более сложном бенчмарке, UI-TARS-1.5 набирает 61.6%.

Игровые окружения

Poki Games: UI-TARS-1.5 достигает 100% завершения задач в 14 мини-играх.
Minecraft (MineRL): Модель достигает 42% успеха в задачах добычи ресурсов.

Доступность и инструменты

UI-TARS-1.5 доступен в открытом доступе по лицензии Apache 2.0.

Кроме того, проект предлагает подробную документацию, данные о воспроизведении и инструменты оценки для облегчения экспериментов.

Заключение

UI-TARS-1.5 представляет собой значительный шаг вперед в области многомодальных ИИ-агентов, особенно в управлении GUI и визуальном логическом мышлении. Модель демонстрирует сильные результаты в различных интерактивных средах.

Как автоматизировать процессы в вашем бизнесе

Посмотрите, какие процессы можно автоматизировать. Найдите моменты в взаимодействиях с клиентами, где искусственный интеллект может добавить наибольшую ценность. Определите важные KPI, чтобы убедиться, что ваши инвестиции в ИИ действительно положительно влияют на бизнес.

Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе. Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru.

Также не забудьте подписаться на наш Telegram и следите за последними новостями ИИ.

AI Image