Исследователи Microsoft представили VALL-E 2: Модель языкового моделирования, достигающая человеческой точности в синтезе речи без предварительного обучения (TTS)

 Microsoft Researchers Introduce VALL-E 2: A Language Modeling Approach that Achieves Human Parity Zero-Shot Text-to-Speech Synthesis (TTS)

“`html

Технология синтеза речи

Технология синтеза речи (TTS) сосредотачивается на преобразовании текста в устную речь с высокой степенью естественности и понимаемости. Это поле пересекается с обработкой естественного языка, обработкой речевых сигналов и машинным обучением. TTS-технология стала неотъемлемой в различных приложениях, таких как виртуальные ассистенты, аудиокниги и инструменты доступности, с целью создания систем, способных генерировать речь, неотличимую от человеческого голоса.

Исследования и разработки

Текущие исследования включают подходы к TTS на основе нейронных сетей, такие как модели последовательность-в-последовательность и вариационные автокодировщики. Использование языкового моделирования нейронного кодека позволяет улучшить качество и изменчивость речи, но сталкивается с вызовами эффективности и требований к данным, особенно в сценариях нулевого обучения, когда модель должна генерировать речь для невидимых дикторов или языков без предварительных данных обучения.

Новый подход VALL-E 2

Исследователи из Microsoft представили VALL-E 2, новый подход, использующий языковое моделирование нейронного кодека, вдохновленный успехом больших языковых моделей в обработке текста. Этот метод представляет речь в виде дискретных кодеков и подходит к TTS как к задаче условного языкового моделирования кодека. VALL-E 2 включает два ключевых улучшения: повторно-осознаваемую выборку и моделирование сгруппированных кодов. Эти инновации направлены на улучшение возможностей TTS в сценариях нулевого обучения с помощью универсальной и эффективной структуры модели.

Оценка производительности

Оценки производительности VALL-E 2 демонстрируют значительные улучшения в сценариях нулевого TTS. Модель была обучена на наборе данных Libriheavy и оценена на наборах данных LibriSpeech и VCTK. Она достигла человеческой паритетности по показателям устойчивости, естественности и сходства. На наборе данных LibriSpeech VALL-E 2 достигла уровня ошибок слов (WER) 4,2% для промптов длительностью 3 секунды и 3,8% для промптов длительностью 5 секунд, в сравнении с фактическим WER 4,5%. Оценка сходства (SIM) для VALL-E 2 составила 0,803 с однократной выборкой и улучшилась до 0,807 с пятью выборками, что указывает на высокую точность и естественность синтеза речи. На наборе данных VCTK модель достигла показателей устойчивости 0,3 и естественности 4,47 для промптов длительностью 3 секунды, демонстрируя свою превосходную производительность в разнообразных сценариях дикторов.

Заключение

VALL-E 2 решает критические вызовы синтеза TTS, представляя новый подход к языковому моделированию кодека. Этот метод улучшает возможности нулевого обучения, предлагая высококачественный, естественный синтез речи с улучшенной эффективностью и устойчивостью. Проведенные исследования Microsoft являются значительным шагом в разработке масштабируемых и гибких систем TTS, способных синтезировать речь для различных приложений. Достижения VALL-E 2 могут поддержать инициативы, такие как создание речи для людей с нарушениями речи, улучшение виртуальных ассистентов и многое другое.

Ресурсы

Ознакомьтесь с документом о данном исследовании. Вся заслуга за это исследование принадлежит его ученым. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему SubReddit с более чем 44 тысячами подписчиков.

Применение искусственного интеллекта в бизнесе

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте Microsoft Researchers Introduce VALL-E 2: A Language Modeling Approach that Achieves Human Parity Zero-Shot Text-to-Speech Synthesis (TTS).

Практические шаги

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Поддержка и консультации

Если вам нужны советы по внедрению ИИ, пишите нам на Telegram. Следите за новостями о ИИ в нашем Телеграм-канале itinainews или в Twitter @itinairu45358.

Продвинутые решения

Попробуйте AI Sales Bot. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!


“`

Полезные ссылки: