“`html
Решения в области многозадачных временных действий
В области последовательного принятия решений, особенно в робототехнике, агенты часто имеют дело с непрерывными пространствами действий и высокоразмерными наблюдениями. Эти трудности возникают из-за необходимости принятия решений в широком диапазоне потенциальных действий, таких как сложные, непрерывные пространства действий, и оценки огромных объемов данных. Для эффективной обработки и действий в этих сценариях требуются продвинутые методы.
Новый подход к обучению многозадачных временных действий
В недавних исследованиях команда ученых из Университета Мэриленда, Колледж-Парк, и Microsoft Research представила новую точку зрения, которая формулирует проблему сжатия последовательности в терминах создания временных абстракций действий. Тренировочные конвейеры больших языковых моделей (LLM) послужили вдохновением для этого метода в области обработки естественного языка (NLP). Токенизация ввода является важной частью обучения LLM и обычно выполняется с использованием кодирования байт-пар (BPE). В данном исследовании предлагается адаптировать BPE, который широко используется в NLP, для задачи изучения возможностей изменения времени в непрерывных областях управления.
Практическое применение нового метода
Примитивное кодирование последовательности (PRISE) – новый подход, представленный в исследовании, для воплощения этой теории в практике. PRISE создает эффективные абстракции действий путем объединения BPE и квантования непрерывных действий. Для упрощения обработки и анализа непрерывные действия квантуются путем преобразования их в дискретные коды. Затем эти последовательности дискретных кодов сжимаются с использованием техники сжатия последовательности BPE для выявления значимых и повторяющихся примитивов действий.
Эмпирические исследования используют задачи робототехники для демонстрации эффективности PRISE. Исследование показало, что выявленные навыки высокого уровня улучшают производительность клонирования поведения (BC) на последующих задачах с использованием PRISE на серии демонстраций многозадачной робототехники. Компактные и содержательные примитивы действий, созданные PRISE, полезны для клонирования поведения, подхода, при котором агенты учатся на примерах экспертов.
Основные выводы и перспективы
Команда подводит итоги своих основных вкладов:
- Признание PRISE как уникального метода для изучения многозадачных временных абстракций действий с использованием подходов из области обработки естественного языка (NLP).
- Упрощение представления действий путем преобразования непрерывного пространства действий агента в дискретные коды. Эти дискретные коды упорядочиваются в последовательность на основе траекторий предварительного обучения. PRISE использует эти последовательности действий для извлечения навыков с различными временными интервалами.
- Существенное улучшение эффективности обучения по сравнению с сильными базовыми показателями, такими как ACT, путем обучения политик над выученными навыками и их декодирования в простые последовательности действий в ходе последующих задач.
- Исследование включает в себя глубокий анализ, чтобы понять, как различные параметры влияют на производительность PRISE, демонстрируя важную роль BPE в успехе проекта.
Заключение
Временные абстракции действий представляют собой мощное средство улучшения последовательного принятия решений, когда их рассматривать как проблему сжатия последовательности. Через эффективную интеграцию подходов из области обработки естественного языка, в частности BPE, в область непрерывного управления, PRISE способен изучать и кодировать навыки высокого уровня. Эти возможности демонстрируют перспективы междисциплинарных подходов в улучшении робототехники и искусственного интеллекта, а также в повышении эффективности таких техник, как клонирование поведения.
Посмотрите статью и проект. Вся заслуга за это исследование принадлежит ученым этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится наш бюллетень.
Не забудьте присоединиться к нашему 47k+ ML SubReddit
Найдите предстоящие вебинары по ИИ здесь
Статья: PRISE: Уникальный метод машинного обучения для изучения многозадачных временных абстракций действий с использованием обработки естественного языка (NLP) на MarkTechPost.
“`