ByteDance предлагает Magic-Me: новую AI-платформу для генерации видео с индивидуальной идентификацией.

Itinai.com lat lay of a medium sized ai business toolkit on a 9b398cfa c8ca 4b2e 9fc2 dc209a9686b9 3

Генеративные модели текст-в-изображение (T2I) и текст-в-видео (T2V) сделали значительные шаги вперед. Однако, если модели T2I могут хорошо контролировать идентичность объекта, то расширение этой способности на T2V остается сложной задачей. Усилия по использованию достижений T2I для генерации видео требуют помощи в поддержании последовательных идентичностей и стабильных фоновых изображений. Исследователи из ByteDance Inc. и UC Berkeley разработали Video Custom Diffusion (VCD), мощную систему для генерации видео с контролируемой идентичностью объекта. VCD использует три ключевых компонента: модуль идентификации для точного извлечения идентичности, 3D-гауссовский шум для обеспечения межкадровой согласованности и модули V2V для улучшения качества видео. VCD обеспечивает стабильную генерацию видео, выделяя информацию об идентичности из фонового шума. Модель VCD поддерживает идентичность персонажей в различных реалистичных и стилизованных моделях.

VCD революционизирует генерацию видео с контролируемой идентичностью объекта, интегрируя информацию об идентичности и корреляцию между кадрами. VCD устанавливает новый стандарт для сохранения идентичности в видео. Его адаптивность к существующим моделям текст-в-изображение улучшает практичность. С функциями, такими как 3D-гауссовский шум и модули Face/Tiled VCD, VCD обеспечивает стабильность, четкость и более высокое разрешение. Обширные эксперименты подтверждают его превосходство над существующими методами, делая его неотъемлемым инструментом для создания стабильных видео высокого качества с сохраненной идентичностью.

Если вам нужны рекомендации по управлению ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.com.

Чтобы быть в курсе последних новостей об ИИ, подписывайтесь на наш Telegram-канал t.me/itinairu.