Новый метод для создания видео с искусственным интеллектом в реальном времени

 Pyramid Attention Broadcast: The Breakthrough Making Real-Time AI Videos Possible

“`html

Pyramid Attention Broadcast: The Breakthrough Making Real-Time AI Videos Possible

Поле видеогенерации продемонстрировало значительный прогресс с появлением моделей диффузионного трансформера (DiT), которые показали превосходное качество по сравнению с традиционными подходами сверточных нейронных сетей. Однако улучшенное качество приходится по значительной цене в виде вычислительных ресурсов и времени вывода, что ограничивает практическое применение этих моделей. В ответ на этот вызов исследователи разработали новый метод под названием Pyramid Attention Broadcast (PAB) для достижения видеогенерации высокого качества в реальном времени без ущерба для качества вывода.

Практические решения и ценность:

PAB обращается к решению проблемы путем нацеливания на избыточность вычислений внимания в процессе диффузии. Метод основан на ключевом наблюдении: различия внимания между смежными шагами диффузии образуют U-образный образ с значительной стабильностью в средних 70% шагов. Это указывает на значительную избыточность в вычислениях внимания, которую PAB использует для повышения эффективности.

Метод Pyramid Attention Broadcast идентифицирует стабильный средний сегмент процесса диффузии, где выходы внимания показывают минимальные различия между шагами. Затем он передает выходы внимания с определенных шагов на последующие шаги внутри этого стабильного сегмента, устраняя необходимость в избыточных вычислениях. PAB применяет различные диапазоны передачи для различных типов внимания на основе их стабильности и различий. Пространственное внимание, которое варьируется больше всего из-за высокочастотных визуальных элементов, получает наименьший диапазон передачи. Временное внимание, показывающее среднечастотные вариации, связанные с движениями, получает средний диапазон. Кросс-внимание, являющееся наиболее стабильным, так как связывает текст с видеоконтентом, получает наибольший диапазон передачи. Кроме того, исследователи вводят параллельную технику последовательной передачи для более эффективного распределенного вывода. Этот подход значительно сокращает время генерации и имеет более низкие коммуникационные затраты по сравнению с существующими методами параллелизации.

ПAB демонстрирует превосходные результаты на трех современных моделях видеогенерации на основе DiT: Open-Sora, Open-Sora-Plan и Latte. Метод достигает генерации видео в реальном времени до разрешения 720p с ускорением до 10,5 раз по сравнению с базовыми методами. Важно, что PAB сохраняет качество вывода, существенно снижая вычислительные затраты. Эксперименты исследователей показывают, что PAB последовательно обеспечивает отличное и стабильное ускорение на этих популярных открытых видео DiT. Метод Pyramid Attention Broadcast достигает значительного ускорения без ущерба для качества вывода, и его способность достигать скорости генерации в реальном времени до 20,6 кадров в секунду для видео высокого разрешения открывает новые возможности для практического применения видеогенерации на основе ИИ. То, что отличает PAB, – его характер обучения без необходимости, что позволяет его немедленное применение к существующим моделям без необходимости ресурсоемкой донастройки.

Разработка PAB решает критическое узкое место в видеогенерации на основе DiT, потенциально ускоряя принятие этих моделей в реальных сценариях, где скорость имеет решающее значение. Поскольку спрос на высококачественный, созданный с использованием ИИ видеоконтент продолжает расти в различных отраслях, техники, подобные PAB, будут играть важную роль в том, чтобы сделать эти технологии более доступными и практичными для повседневного использования. Исследователи предвидят, что их простой, но эффективный метод послужит прочной основой и способствует будущим исследованиям и применению в области видеогенерации, что откроет путь к более эффективным и универсальным инструментам создания видео на основе ИИ.

Проверьте статью и репозиторий на GitHub. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему Telegram-каналу и группе LinkedIn. Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу более чем 50 тыс. участников на ML SubReddit.

Найдите предстоящие вебинары по ИИ здесь.

Оригинальная статья: Pyramid Attention Broadcast: The Breakthrough Making Real-Time AI Videos Possible


“`

Полезные ссылки: