✅ Метод обучения устройств с помощью автономного обучения с подкреплением DigiRL

«`html

Преимущества использования DigiRL: Новый автономный метод обучения агентов управления устройствами

Прогресс в моделях видео-языка (VLM) продемонстрировал впечатляющие способности к здравому смыслу, рассуждению и обобщению. Это означает, что разработка полностью автономного цифрового помощника на основе ИИ, способного выполнять повседневные задачи на компьютере естественным языком, становится возможной. Однако лучшие способности рассуждения и здравого смысла не автоматически приводят к интеллектуальному поведению помощника. ИИ-помощники используются для выполнения задач, рационального поведения и исправления ошибок, а не только для предоставления правдоподобных ответов на основе предварительных данных обучения. Поэтому требуется метод преобразования предварительных способностей в практических агентов ИИ.

Практические решения и ценность

Эта статья обсуждает три существующих метода. Первый метод — обучение мультимодальных цифровых агентов, которые сталкиваются с вызовами, такими как управление устройствами, выполняемое непосредственно на уровне пикселей в пространстве координатных действий, и стохастический и непредсказуемый характер экосистем устройств и интернета. Второй метод — среды для агентов управления устройствами. Эти среды предназначены для оценки и предлагают ограниченный набор задач в полностью детерминированных и стационарных условиях. Последний метод — обучение с подкреплением (RL) для LLM/VLM, где исследования с RL для основных моделей фокусируются на одношаговых задачах, таких как оптимизация предпочтений, но оптимизация одношагового взаимодействия на основе экспертных демонстраций может привести к субоптимальным стратегиям для многошаговых проблем.

Исследователи из UC Berkeley, UIUC и Google DeepMind представили DigiRL (RL для цифровых агентов) — новый автономный метод RL для обучения агентов управления устройствами. Результирующий агент достигает передовой производительности на нескольких задачах управления устройствами Android. Процесс обучения включает две фазы: сначала начальная фаза оффлайн RL для инициализации агента с использованием существующих данных, затем фаза оффлайн-онлайн RL, используемая для настройки модели, полученной из оффлайн RL, на онлайн данных. Для обучения онлайн RL была разработана масштабируемая и параллельная среда обучения для Android, которая включает надежный универсальный оценщик (средняя ошибка 2,8% по сравнению с человеческим суждением) на основе VLM.

Исследователи провели эксперименты для оценки производительности DigiRL на сложных задачах управления устройствами Android. Важно понять, может ли DigiRL производить агентов, которые могут эффективно учиться через автономное взаимодействие, сохраняя возможность использовать оффлайн данные для обучения. Поэтому был проведен сравнительный анализ DigiRL по сравнению с:

Агентами передовых моделей, построенными вокруг собственных VLM с использованием нескольких техник подачи и извлечения стиля.
Запуск имитационного обучения на статических человеческих демонстрациях с тем же распределением инструкций.
Подход к фильтрованному клонированию поведения.

Агент, обученный с использованием DigiRL, был протестирован на различных задачах из набора данных Android in the Wild (AitW) с реальными эмуляторами устройств Android. Агент достиг улучшения на 28,7% по сравнению с существующими передовыми агентами (увеличение успешности с 38,5% до 67,2%) 18B CogAgent. Он также превзошел предыдущий лучший метод автономного обучения на основе фильтрованного клонирования поведения более чем на 9%. Более того, несмотря на всего 1,3 миллиарда параметров, агент показал более высокую производительность, чем передовые модели, такие как GPT-4V и Gemini 1.5 Pro (успешность 17,7%). Это делает его первым агентом, достигшим передовой производительности в управлении устройствами с использованием автономного метода оффлайн-онлайн RL.

В заключение, исследователи предложили DigiRL — новый автономный метод RL для обучения агентов управления устройствами, который устанавливает новую передовую производительность на нескольких задачах управления устройствами Android из AitW. Была разработана масштабируемая и параллельная среда Android для достижения этой цели с надежным универсальным оценщиком на основе VLM для быстрого сбора онлайн данных. Агент, обученный на DigiRL, достиг улучшения на 28,7% по сравнению с существующими передовыми агентами 18B CogAgent. Однако обучение было ограничено задачами из набора данных AitW, а не всеми возможными задачами устройств. Поэтому будущая работа включает в себя алгоритмические исследования и расширение задачного пространства, сделав DigiRL базовым алгоритмом.

Применение в бизнесе

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте DigiRL: A Novel Autonomous Reinforcement Learning RL Method to Train Device-Control Agents.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI. Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI. На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

«`

Метод обучения устройств с помощью автономного обучения с подкреплением DigiRL

Преимущества использования DigiRL: Новый автономный метод обучения агентов управления устройствами

Практические решения и ценность

Применение в бизнесе

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

Монетизация Telegram-канала с цитатами и мотивацией

Как зарабатывать на блоге в Instagram про стиль жизни

Как зарабатывать на AI в нише психологии

Монетизация экспертного канала по саморазвитию

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Агент для мультиязычной поддержки клиентов : автоматизация перевода и коммуникации

ИИ-Агент по автоматизации юридических процессов : подготовка шаблонных документов

ИИ-Агент для управления проектами : планирование и контроль сроков

ИИ-Маркетолог по контенту : генерация SEO-оптимизированных текстов

Как выявить боль клиента за 3 вопроса: искусственный интеллект подберет вопросы под ваш сегмент

Как ответить клиенту на негатив в мессенджере: искусственный интеллект подскажет 5 фраз для деэскалации

Как написать понятную инструкцию “Как начать работать с продуктом”: ИИ сформирует пошаговый onboarding-текст

Как написать объяснительную сотруднику за нарушение: искусственный интеллект подскажет формулировку под ТК РФ

Как обработать входящее обращение по шаблону: искусственный интеллект подскажет универсальный текст ответа

Как организовать сбор дефектов в формате RCA: ИИ предложит шаблон анализа корневых причин

Лучший ИИ онлайн

Новая статья DeepMind оценивает модель текст в изображение Gecko.

Исследование современных алгоритмов поиска в системах рекомендаций рекламы и контента: механизмы и вызовы

Улучшение работы языковых моделей и разнообразия с помощью многопользовательской донастройки

Преобразование MediaProNet с помощью AI-технологий

Метод SCoT: улучшение производительности и рассуждений больших языковых моделей AI через стратегическое выявление.

Исследование 27 сложностей разработки больших языковых моделей: анализ 29 000 сообщений на форумах разработчиков и 54% нерешенных проблем

Системы промышленного зрения Inovako: повышение точности и снижение ошибок в производстве

ByteDance предлагает OmniHuman-1: система для создания видео с людьми на основе одного изображения и движений.

FAQ

Карта сайта

Отказ от ответственности

Новости

Подписка

Авторские права