Модели Speech-to-Speech: Революция в Многоязычных Взаимодействиях с Искусственным Интеллектом

Презентация модели Speech-to-Speech Foundation на NVIDIA GTC25

Эксперты компании Gnani.ai представили на конференции NVIDIA GTC25 революционные достижения в области голосового ИИ, сосредоточив внимание на разработке и внедрении моделей Speech-to-Speech Foundation. Этот инновационный подход обещает преодолеть ограничения традиционных каскадных архитектур голосового ИИ, открывая эру бесшовных, многоязычных и эмоционально осознанных голосовых взаимодействий.

Ограничения каскадных архитектур

Современные голосовые агенты работают на основе трехступенчатой схемы: распознавание речи (STT), большие языковые модели (LLMs) и синтез речи (TTS). Хотя эта архитектура эффективна, она имеет значительные недостатки, такие как задержка и распространение ошибок. Каждая ступень добавляет свою задержку, что может привести к общей задержке от 2,5 до 3 секунд, ухудшая пользовательский опыт. Кроме того, ошибки, возникшие на этапе STT, накапливаются в системе, что приводит к дополнительным неточностям. Традиционная архитектура также теряет важные паралингвистические характеристики, такие как настроение, эмоции и тон, что приводит к монотонным и эмоционально плоским ответам.

Введение в модели Speech-to-Speech Foundation

Чтобы решить эти проблемы, Gnani.ai представляет новую модель Speech-to-Speech Foundation. Эта модель обрабатывает и генерирует аудио напрямую, устраняя необходимость в промежуточных текстовых представлениях. Ключевое новшество заключается в обучении большого аудиокодера на 1,5 миллиона часов размеченных данных на 14 языках, что позволяет захватывать нюансы эмоций, эмпатии и тональности. Модель использует вложенный XL кодер, переобученный на комплексных данных, а также слой проектора входного аудио для преобразования аудиофичей в текстовые встраивания. Для потоковой передачи в реальном времени аудио и текстовые фичи перемешиваются, в то время как для непотоковых случаев используется слой слияния встраиваний. Слой LLM, изначально основанный на Llama 8B, был расширен для поддержки 14 языков, что потребовало перестройки токенизаторов. Модель проектора на выходе генерирует мел-спектрограммы, позволяя создавать гиперперсонализированные голоса.

Ключевые преимущества и технические трудности

Модель Speech-to-Speech предлагает несколько значительных преимуществ. Во-первых, она значительно снижает задержку, сокращая время от 2 секунд до примерно 850-900 миллисекунд для первого токена. Во-вторых, она повышает точность, объединяя ASR и слой LLM, что улучшает работу, особенно при коротких и длинных речах. В-третьих, модель достигает эмоциональной осведомленности, захватывая и моделируя тональность, акцент и скорость речи. В-четвертых, она улучшает обработку прерываний за счет контекстной осведомленности, что способствует более естественным взаимодействиям. Наконец, модель эффективна в условиях низкой пропускной способности, что особенно важно для телефонных сетей. Создание этой модели стало настоящим вызовом, особенно из-за огромных объемов данных. Команда разработала систему краудсорсинга с 4 миллионами пользователей для генерации эмоционально насыщенных разговорных данных. Также были использованы фундаментальные модели для генерации синтетических данных, и модель была обучена на 13,5 миллионах часов общедоступных данных. Итоговая модель состоит из 9 миллиардов параметров: 636 миллионов для аудиовхода, 8 миллиардов для LLM и 300 миллионов для системы TTS.

Роль NVIDIA в разработке

Разработка этой модели во многом зависела от технологий NVIDIA. Для обучения моделей кодер-декодер использовался NVIDIA Nemo, а NeMo Curator способствовал генерации синтетических текстовых данных. NVIDIA EVA использовалась для генерации аудиопар, комбинируя собственную информацию с синтетическими данными.

Примеры использования

Gnani.ai продемонстрировала два основных случая использования: перевод языка в реальном времени и поддержку клиентов. Демонстрация перевода языка в реальном времени показала работу ИИ-движка, который облегчил разговор между англоговорящим агентом и франкоговорящим клиентом. Демонстрация поддержки клиентов продемонстрировала способность модели обрабатывать многозначные разговоры, прерывания и эмоциональные нюансы.

Модель Speech-to-Speech Foundation

Модель Speech-to-Speech Foundation представляет собой значительный шаг вперед в области голосового ИИ. Устраняя ограничения традиционных архитектур, эта модель позволяет осуществлять более естественные, эффективные и эмоционально осознанные голосовые взаимодействия. По мере дальнейшего развития технологии она обещает трансформировать различные отрасли, от обслуживания клиентов до глобальной коммуникации.

Преобразование процессов с помощью ИИ

Изучите, как технологии искусственного интеллекта могут изменить ваш подход к работе, например, модели Speech-to-Speech Foundation. Обратите внимание на процессы, которые можно автоматизировать, и найдите моменты в взаимодействиях с клиентами, где искусственный интеллект может принести наибольшую пользу.

Определите важные ключевые показатели эффективности (KPI), чтобы убедиться, что ваши инвестиции в ИИ действительно оказывают положительное влияние на бизнес. Выберите инструменты, соответствующие вашим потребностям, и позволяющие вам настраивать их в соответствии с вашими целями. Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram https://t.me/itinai.

Посмотрите практический пример решения на базе ИИ: бот для продаж от https://itinai.ru/aisales, предназначенный для автоматизации общения с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.

Новости в сфере искусственного интеллекта