Компания Google AI представила новую модель генерации видео под названием Lumiere. Этот прорыв в области искусственного интеллекта сочетает в себе пространственные и временные аспекты, обеспечивая удивительную реалистичность. Это захватывающий шаг в развитии генеративных моделей.
Недавние достижения в области генеративных моделей для задач текст-в-изображение (T2I) привели к впечатляющим результатам в создании высокоразрешенных реалистичных изображений по текстовым подсказкам. Однако расширение этой возможности на модели текст-в-видео (T2V) представляет вызовы из-за сложностей, внесенных движением. Текущие модели T2V имеют ограничения по продолжительности видео, визуальному качеству и реалистичной генерации движения, в основном из-за сложностей, связанных с моделированием естественного движения, требованиями к вычислениям и необходимостью обширных обучающих данных.
Исследователи из Google Research, Weizmann Institute, Tel-Aviv University и Technion представляют Lumiere, новую модель диффузии текст-в-видео, адресующую проблему реалистичного, разнообразного и последовательного синтеза движения. Они представляют архитектуру Space-Time U-Net, которая уникальным образом генерирует всю временную длительность видео за один проход, в отличие от существующих моделей, которые синтезируют отдаленные ключевые кадры, за которыми следует временная супер-разрешение. Путем включения пространственной и временной дискретизации и использования предварительно обученной модели диффузии текст-в-изображение Lumiere достигает передовых результатов текст-в-видео, эффективно поддерживая различные задачи создания контента и редактирования видео.