LOONG: Новый генератор видео на основе авторегрессионных LLM, способный создавать минутные видео
Практические решения и ценность
Генерация видео с помощью LLM является развивающейся областью с перспективной траекторией роста. Авторегрессионные большие языковые модели (LLM) проявили себя в создании последовательностей токенов в обработке естественного языка, однако их применение в генерации видео ограничивается короткими видеороликами длительностью несколько секунд. Для решения этой проблемы исследователи представили Loong, генератор видео на основе авторегрессивной LLM, способный создавать видео продолжительностью в минуты.
Loong разработан двухкомпонентной системой, включающей видео токенизатор, который преобразует видео в токены, декодер и трансформер, предсказывающие следующие видео-токены на основе текстовых токенов. Архитектура 3D CNN используется для токенизатора, вдохновленная MAGViT2. Модель работает с видео низкого разрешения и оставляет супер-разрешение для последующей обработки. Токенизатор способен сжимать 10-секундное видео (65 кадров, разрешение 128*128) в последовательность из 17*16*16 дискретных токенов. Генерация видео на основе авторегрессивной LLM преобразует видео-кадры в дискретные токены, объединяя текстовые и видео-токены в единую последовательность. Создание видео от текста моделируется как авторегрессивное предсказание видео-токенов на основе текстовых токенов при помощи декодеров-трансформеров.
Модель Loong генерирует длинные видеоролики с постоянным внешним видом, большой динамикой движения и естественными переходами сцен. Оставляя супер-разрешение для дальнейшей обработки, модель Loong преодолевает проблемы обучения длинных видео с помощью прогрессивной тренировки от короткого к длинному и пересчета потерь. Модель способна помочь визуальным художникам, кинопроизводителям и использоваться в развлекательных целях.
Поддержите развитие проекта и следите за новостями:
Проверьте статью о проекте и следите за новостями в нашем Telegram канале и на Twitter @itinairu45358. Присоединяйтесь!
Попробуйте использовать AI Sales Bot для помощи в продажах – это удобный инструмент для взаимодействия с клиентами и генерации контента.
Узнайте, как искусственный интеллект от AI Lab itinai.ru может изменить ваши бизнес-процессы. Будущее уже здесь!