SongGen: Открытый авто-регрессивный трансформер для генерации песен из текста

Создание песен из текста

Создание песен из текстовых описаний представляет собой сложную задачу, так как требует одновременной генерации вокала и инструментальной музыки. Песни уникальны, так как объединяют тексты и мелодии для выражения эмоций, что делает процесс более сложным, чем простая генерация речи или инструментальной музыки. Основной проблемой является недостаток качественных открытых данных, что ограничивает исследования и разработки в этой области.

Текущие подходы к генерации музыки

Современные модели генерации музыки из текста используют описательные тексты для создания музыки, однако большинство методов сталкиваются с трудностями в генерации реалистичного вокала. Модели на основе трансформеров обрабатывают аудио как дискретные токены, а диффузионные модели создают качественную инструментальную музыку, но обе стратегии имеют проблемы с вокалом. Генерация песен, которая сочетает вокал и инструментальную музыку, полагается на многоступенчатые методы, такие как Jukebox и MelodyLM, что усложняет процесс управления.

Решение: модель SongGen

Для генерации песни из текстовых описаний, лирики и опционального референсного голоса исследователи предложили модель SongGen, авто-регрессионный трансформер с интегрированным нейронным аудиокодеком. Модель предсказывает последовательности аудиотокенов, которые синтезируются в песни. SongGen поддерживает два режима генерации: Смешанный режим и Двухдорожечный режим.

Смешанный режим

В смешанном режиме X-Codec кодирует сырой звук в дискретные токены, акцентируя внимание на ранних кодировках для улучшения четкости вокала. Вариант Mixed Pro вводит вспомогательную потерю для вокала, чтобы повысить его качество.

Двухдорожечный режим

В двухдорожечном режиме вокал и аккомпанемент генерируются отдельно, синхронизируясь через параллельные или чередующиеся паттерны. Параллельный режим выравнивает токены по кадрам, в то время как чередующийся режим улучшает взаимодействие между вокалом и аккомпанементом.

Оценка и результаты

Исследователи оценили SongGen в сравнении с другими моделями, такими как Stable Audio Open и MusicGen. Несмотря на использование всего 2000 часов размеченных данных, SongGen превзошел эти модели по релевантности текста и контролю вокала. Подход Mixed Pro улучшил качество вокала, а метод Interleaving продемонстрировал высокое качество вокала с незначительными потерями гармонии.

Заключение

Предложенная модель упростила процесс генерации песен из текста, представив одноэтапный авто-регрессионный трансформер, который поддерживает смешанные и двухдорожечные режимы. Открытость модели делает её доступной для начинающих и экспертов, позволяя создавать музыку с точным контролем над вокалом и инструментами. Однако способность модели имитировать голоса вызывает этические вопросы, требующие защиты от злоупотреблений.

Практические рекомендации для бизнеса

Изучите, как технологии искусственного интеллекта могут изменить ваш подход к работе. Найдите процессы, которые можно автоматизировать, и моменты взаимодействия с клиентами, где ИИ может добавить ценность. Определите ключевые показатели эффективности для оценки влияния ваших инвестиций в ИИ.

Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе. Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Подписывайтесь на наш Telegram для получения последних новостей об ИИ.

Посмотрите практический пример решения на базе ИИ: бот для продаж, разработанный для автоматизации взаимодействия с клиентами.