Новая открытая модель текст в речь MARS5 с улучшенной интонацией.

 Camb AI Releases MARS5 TTS: A Novel Open Source Text to Speech Model for Insane Prosody

“`html

MARS5 TTS: революционная модель текст в речь от Camb AI

Новая модель MARS5 TTS от команды Camb AI представляет собой значительное достижение в области открытых систем текст в речь. Эта инновационная модель предлагает исключительный контроль над просодикой и возможности клонирования голоса, требуя менее 5 секунд аудио ввода. Система использует двухэтапную архитектуру, состоящую из 750M Auto-Regressive (AR) модели и 450M Non-Auto-Regressive (NAR) модели. MARS5 использует BPE токенизатор, обеспечивающий точный контроль над пунктуацией, паузами и остановками, тем самым продвигая область синтеза речи.

Уникальная архитектура модели

Архитектура модели MARS5 следует уникальному двухэтапному AR-NAR конвейеру. На первом этапе авторегрессионная трансформерная модель генерирует грубые (L0) закодированные речевые особенности из входного текста и ссылочного аудио. Затем эти особенности вместе с текстом и ссылкой уточняются с помощью мультиномиальной вероятностной модели диффузии очистки (DDPM), чтобы произвести оставшиеся значения кодовой книги. Наконец, вокодер преобразует выход DDPM в конечное аудио.

Компонент AR MARS5 предсказывает L0 грубые токены, которые затем дополнительно уточняются моделью NAR DDPM. Этот уточненный вывод обрабатывается вокодером для генерации конечного аудио. Обучение модели на необработанном аудио в сочетании с текстом, закодированным парами байтов, позволяет тонко управлять просодией через пунктуацию и капитализацию. Например, добавление запятых вводит паузы, а слова с заглавной буквы подчеркиваются, обеспечивая естественный метод для управления просодией генерируемого вывода.

Преимущества и применение MARS5

По сравнению с другими ведущими языковыми моделями, такими как GPT и Gemini, MARS5 отличается специализированным фокусом на синтез текста в речь и уникальной AR-NAR архитектурой. В то время как GPT и Gemini в основном предназначены для генерации и понимания текста, MARS5 оптимизирована для создания высококачественного управляемого речевого вывода. Ее использование DDPM на этапе NAR и включение просодического контроля через форматирование текста выделяет ее в синтезе речи.

MARS5 демонстрирует впечатляющие результаты в клонировании голоса и управлении просодикой. Система поддерживает два режима вывода: быстрое “поверхностное клонирование”, которое не требует транскрипции ссылочного аудио, и медленное, но более качественное “глубокое клонирование”, которое использует транскрипцию запроса. Всего за 5 секунд аудио и фрагмент текста MARS5 способна генерировать речь для разнообразных и сложных сценариев, включая спортивные комментарии и озвучивание аниме, демонстрируя свою универсальность и эффективность.

Применение MARS5

Для использования MARS5 предоставляется ссылочный аудиофайл длиной от 2 до 12 секунд, причем 6-секундные образцы обеспечивают оптимальные результаты. Система принимает текстовый ввод с пунктуацией и капитализацией для управления просодикой. Пользователи могут выполнить “глубокое клонирование” для улучшения качества, предоставив транскрипцию ссылочного аудио, хотя этот процесс занимает больше времени. Способность MARS5 обрабатывать сложные просодические сценарии делает ее подходящей для различных приложений в области развлечений, образования и доступности.

MARS5 TTS представляет собой значительное достижение в области открытой технологии текст в речь. Ее инновационная архитектура, объединяющая AR и NAR модели с DDPM, обеспечивает беспрецедентный контроль над синтезом речи. Способность системы клонировать голоса с минимальным вводом и генерировать высококачественную, просодически насыщенную речь позиционирует ее как ценный инструмент для разработчиков и исследователей в области искусственного интеллекта и речевых технологий.

Проверьте модель и GitHub. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему Telegram-каналу и LinkedIn-группе.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему подпреддиту с 45 тыс. подписчиков.

Источник: MarkTechPost.

“`

Полезные ссылки: