В мире искусственного интеллекта наблюдается рост популярности моделей диффузии, которые позволяют создавать высококачественные изображения и захватывающие видеоролики. Эти модели способны генерировать реалистичные и динамичные анимации портретов из аудио и статических изображений, находя применение в виртуальной реальности, игровой индустрии и цифровых медиа.
Одной из основных проблем, которую решают исследователи из Tencent, является поддержание временной последовательности и визуального качества в анимациях. Для этого был разработан AniPortrait, использующий модели на основе трансформеров и надежную диффузионную модель для создания высококачественных анимированных портретов на основе аудио и референсного изображения.
Основные особенности AniPortrait включают два этапа: Audio2Lmk и Lmk2Video. Audio2Lmk извлекает ключевые точки лица из аудио, в то время как Lmk2Video генерирует видеоролики высокого качества с временной стабильностью. Фреймворк использует предварительно обученные модели для извлечения аудио-функций и включает модуль движения для генерации видео.
Экспериментальные результаты демонстрируют превосходную производительность AniPortrait в создании естественных и визуально привлекательных анимаций. Фреймворк обладает потенциалом в области движения лица и предлагает гибкость в изменении фациальных черт. Однако признаются проблемы, связанные с получением масштабных 3D данных, и планируется предсказывать видеоролики портретов непосредственно из аудио для улучшения результатов.
Для компаний, стремящихся использовать практические решения в области искусственного интеллекта, важно выявить возможности автоматизации, определить измеримые KPI, выбрать настраиваемые инструменты и внедрять искусственный интеллект постепенно. Для советов по управлению KPI в области искусственного интеллекта и практических решений, itinai.com предлагает непрерывную поддержку и практические решения в области искусственного интеллекта, такие как AI Sales Bot, предназначенный для автоматизации взаимодействия с клиентами на всех этапах их путешествия.
Полезные ссылки:
AI Lab в Telegram @aiscrumbot – бесплатная консультация
Tencent Propose AniPortrait: An Audio-Driven Synthesis of Photorealistic Portrait Animation
MarkTechPost
Twitter – @itinaicom