Технология Google DeepMind для синхронизации аудио и видео

 Google DeepMind Introduces Video-to-Audio V2A Technology: Synchronizing Audiovisual Generation

“`html

Интеграция технологии Video-to-Audio (V2A) от Google DeepMind: Синхронизация аудиовизуального контента

Звук неотъемлем для обогащения человеческого опыта, улучшения коммуникации и добавления эмоциональной глубины к медиа. Однако внедрение звука в модели генерации видео с такой же тонкостью и нюансами, как у контента, созданного человеком, остается вызовом. Создание музыкального сопровождения для бесзвучных видео является значительным шагом в создании сгенерированных фильмов.

Практические решения и ценность

Технология Video-to-Audio (V2A) позволяет создавать синхронизированный аудиовизуальный контент. С использованием комбинации видеопикселей и текстовых инструкций на естественном языке V2A создает погружающий звук для действий на экране. Используя методы авторегрессии и диффузии, была найдена наилучшая масштабируемая архитектура ИИ. Результаты использования метода диффузии для генерации звука оказались наиболее убедительными и реалистичными в отношении синхронизации аудио и визуальной составляющей.

Первый шаг технологии Video-to-Audio заключается в сжатии входного видео. Аудио повторно очищается от фонового шума с использованием модели диффузии. Визуальный ввод и естественные языковые подсказки используются для управления этим процессом, что генерирует реалистичный, синхронизированный звук, тесно следующий инструкциям. Декодирование, генерация звуковой волны и объединение аудио- и визуальных данных составляют заключительный этап процесса вывода аудио.

Перед итеративным запуском видео и аудио через модель диффузии V2A кодирует их. Следующим шагом является создание сжатого аудио, декодированного в звуковую волну. Исследователи дополнили процесс обучения дополнительной информацией, такой как транскрипты устной речи и ИИ-сгенерированные аннотации с подробными описаниями звука, чтобы улучшить способность модели производить высококачественный звук и обучить ее создавать конкретные звуки.

Представленная технология учится реагировать на информацию в транскриптах или аннотациях, ассоциируя различные аудиофрагменты с различными визуальными сценами путем обучения на видео, аудио и добавленных аннотациях. Для создания сцен с драматическим сопровождением, реалистичных звуковых эффектов или диалогов, дополняющих персонажей и тон видео, технологию V2A можно совместить с моделями генерации видео, такими как Veo.

Благодаря способности создавать сопровождение для широкого спектра классических видео, таких как немые фильмы и архивные материалы, технология V2A открывает мир творческих возможностей. Самым захватывающим аспектом является то, что она может генерировать столько звуковых дорожек, сколько захочет пользователь для любого видеоматериала. Пользователи могут определить “положительную подсказку”, чтобы направить вывод к желаемым звукам, или “отрицательную подсказку”, чтобы избежать нежелательных шумов. Эта гибкость дает пользователям беспрецедентный контроль над аудиовыводом V2A, способствуя духу экспериментирования и позволяя им быстро найти идеальное соответствие своему творческому видению.

Команда посвящена постоянным исследованиям и разработкам для решения ряда проблем. Они понимают, что качество аудиовывода зависит от видеовхода, и искажения или артефакты в видео, выходящие за пределы обучающего распределения модели, могут привести к заметному ухудшению аудио. Они работают над улучшением синхронизации губ для видеороликов с озвучкой. Анализируя входные транскрипты, V2A стремится создать речь, идеально синхронизированную с движениями рта персонажей. Команда также учитывает несоответствие, которое может возникнуть, когда видеомодель не соответствует транскрипту, что приводит к странному синхронизированию губ. Они активно работают над решением этих проблем, демонстрируя свое стремление к поддержанию высоких стандартов и непрерывному улучшению технологии.

Команда активно ищет обратную связь от ведущих создателей и режиссеров, признавая их бесценные идеи и вклад в развитие технологии V2A. Такой коллаборативный подход обеспечивает, что технология V2A может положительно влиять на творческое сообщество, удовлетворяя их потребности и улучшая их работу. Для дополнительной защиты ИИ-сгенерированного контента от злоупотреблений они интегрировали набор инструментов SynthID в исследование V2A и пометили его всё, что свидетельствует о их приверженности этичному использованию технологии.

Источник: MarkTechPost

Применение ИИ в вашем бизнесе

Если вы хотите использовать ИИ для развития вашей компании и оставаться в числе лидеров, обратитесь к нам. Мы поможем вам проанализировать, как ИИ может изменить вашу работу, определить области применения автоматизации и ключевые показатели эффективности, которые можно улучшить с помощью ИИ.

Внедряйте ИИ решения постепенно, начиная с малых проектов, анализируя результаты и опыт, чтобы расширять автоматизацию. Если вам нужны советы по внедрению ИИ, обращайтесь к нам здесь. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

AI Sales Bot

Попробуйте AI Sales Bot, который поможет вам отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию. Попробовать здесь.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

“`

Полезные ссылки: