Ученые из UCLA и Apple представили STIV: масштабируемую AI-систему для генерации видео на основе текста и изображений.

 Researchers from UCLA and Apple Introduce STIV: A Scalable AI Framework for Text and Image Conditioned Video Generation

“`html

Преобразование генерации видео с помощью STIV

Генерация видео значительно улучшилась благодаря моделям, таким как Sora, использующим архитектуру Diffusion Transformer (DiT). Однако модели текст-видео (T2V) сталкиваются с трудностями в создании четких и последовательных видео без дополнительных ссылок. Модели текст-изображение-видео (TI2V) решают эту проблему, используя начальный кадр изображения для улучшения ясности.

Проблемы и решения

Достичь уровня производительности Sora сложно, так как необходимо эффективно комбинировать входные данные на основе изображений и модели. Исследования показывают, что интеграция условий изображения в архитектуры U-Net не решает эту проблему для моделей DiT. Модели, основанные на диффузии, доминируют в генерации текст-видео, но многие исследования сосредоточены на отдельных аспектах, не учитывая их комбинированное влияние на производительность.

Новая методология STIV

Исследователи из Apple и Университета Калифорнии разработали метод STIV, который систематически изучает взаимодействие между архитектурами моделей, методами обучения и стратегиями подготовки данных. STIV — это простой и масштабируемый подход к генерации видео, основанный на текстах и изображениях. Он использует замену кадров и объединяет текстовые условия через совместное изображение-текстовое условное управление.

Преимущества STIV

  • Одновременная генерация T2V и TI2V.
  • Легкость расширения для приложений, таких как предсказание видео и интерполяция кадров.
  • Поддержка многозначной генерации и генерации длинных видео.

Результаты и достижения

Модели T2V и STIV значительно улучшились после увеличения параметров с 600M до 8.7B. Например, оценка VBench-Semantic увеличилась с 72.5 до 74.8. Модель STIV-M-512 достигла оценки VBench-I2V 90.1. Также STIV-V2V показал превосходство в предсказании видео с оценкой FVD 183.7.

Заключение

Предложенная методология предоставляет масштабируемое и гибкое решение для генерации видео, интегрируя текстовые и изображенческие условия в единую модель. Это подчеркивает потенциал для будущих достижений в области генерации видео и способствует развитию исследовательского сообщества.

Как использовать ИИ в вашем бизнесе

Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, проанализируйте, как он может изменить вашу работу. Определите, где можно применить автоматизацию и какие ключевые показатели эффективности (KPI) вы хотите улучшить с помощью ИИ. Внедряйте решения постепенно, начиная с небольших проектов.

Если вам нужны советы по внедрению ИИ, пишите нам в Telegram. Следите за новостями о ИИ в нашем Телеграм-канале или в Twitter.

Попробуйте AI Sales Bot, который помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж. Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab.

“`

Полезные ссылки: