ByteDance представляет UI-TARS-1.5: открытый многомодальный ИИ-агент на основе мощной модели “визуальный-языковой”
Компания ByteDance выпустила UI-TARS-1.5, обновленную версию своей многомодальной платформы, ориентированной на взаимодействие с графическими пользовательскими интерфейсами (GUI) и игровыми окружениями. UI-TARS-1.5, построенный на модели “визуальный-языковой”, способен воспринимать содержимое экрана и выполнять интерактивные задачи, обеспечивая стабильные улучшения по множеству показателей автоматизации GUI и логического мышления в играх. Модель превосходит несколько ведущих аналогов, включая OpenAI’s Operator и Anthropic’s Claude 3.7, как по точности, так и по завершению задач в различных средах.
Подход “родного агента” к взаимодействию с GUI
В отличие от моделей, использующих инструменты или архитектуры вызова функций, UI-TARS-1.5 обучается от начала до конца для восприятия визуального ввода (скриншоты) и генерации действий, подобных человеческим, таких как движение мыши и ввод с клавиатуры. Это приближает модель к тому, как пользователи взаимодействуют с цифровыми системами.
Ключевые улучшения UI-TARS-1.5
- Интеграция восприятия и логического мышления: Модель совместно кодирует изображения экрана и текстовые инструкции, поддерживая сложное понимание задач и визуальное основание.
- Единое пространство действий: Представление действий разработано как платформонезависимое, обеспечивая согласованный интерфейс для настольных, мобильных и игровых сред.
- Саморазвитие через воспроизводимые данные: Тренировочный процесс включает данные о взаимодействиях, позволяя модели итеративно улучшать свое поведение.
Оценка и бенчмаркинг
Модель была оценена по нескольким бенчмаркам, которые анализируют поведение агентов в задачах GUI и игровых задачах, обеспечивая стандартизированный подход к оценке производительности.
Задачи для агентов GUI
- OSWorld (100 шагов): Уровень успеха UI-TARS-1.5 составляет 42.5%, что выше, чем у OpenAI Operator (36.4%) и Claude 3.7 (28%).
- Windows Agent Arena (50 шагов): Модель достигает 42.1%, что значительно превышает предыдущие показатели (например, 29.8%).
- Android World: Модель достигает 64.2% успеха, что свидетельствует о ее универсальности для мобильных операционных систем.
Визуальное основание и понимание экрана
- ScreenSpot-V2: Модель достигает 94.2% точности в локализации элементов GUI.
- ScreenSpotPro: В более сложном бенчмарке, UI-TARS-1.5 набирает 61.6%.
Игровые окружения
- Poki Games: UI-TARS-1.5 достигает 100% завершения задач в 14 мини-играх.
- Minecraft (MineRL): Модель достигает 42% успеха в задачах добычи ресурсов.
Доступность и инструменты
UI-TARS-1.5 доступен в открытом доступе по лицензии Apache 2.0.
Кроме того, проект предлагает подробную документацию, данные о воспроизведении и инструменты оценки для облегчения экспериментов.
Заключение
UI-TARS-1.5 представляет собой значительный шаг вперед в области многомодальных ИИ-агентов, особенно в управлении GUI и визуальном логическом мышлении. Модель демонстрирует сильные результаты в различных интерактивных средах.
Как автоматизировать процессы в вашем бизнесе
Посмотрите, какие процессы можно автоматизировать. Найдите моменты в взаимодействиях с клиентами, где искусственный интеллект может добавить наибольшую ценность. Определите важные KPI, чтобы убедиться, что ваши инвестиции в ИИ действительно положительно влияют на бизнес.
Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе. Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru.
Также не забудьте подписаться на наш Telegram и следите за последними новостями ИИ.