Как хорошо искусственный интеллект передает звук эмоций? Новая статья представляет SALMON: набор для оценки акустических языковых моделей

 How Well Can AI Models Capture the Sound of Emotion? This AI Paper Unveils SALMON: A Suite for Acoustic Language Model Evaluation

“`html

Решения ИИ для оценки акустической модели речевых языковых моделей

Одной из основных проблем в области моделей речи и языка (SLM) является отсутствие комплексных метрик оценки, выходящих за рамки базового моделирования текстового контента. Хотя SLM показали значительный прогресс в генерации согласованной и грамматически правильной речи, их способность моделировать акустические особенности, такие как эмоции, фоновый шум и идентификация диктора, остается недостаточно изученной. Оценка этих измерений критически важна, поскольку человеческое общение сильно зависит от таких акустических сигналов. Например, одна и та же фраза, произнесенная с разной интонацией или в разных акустических условиях, может нести совершенно разные значения. Отсутствие надежных показателей для оценки этих особенностей ограничивает практическую применимость SLM в реальных задачах, таких как обнаружение настроения в виртуальных помощниках или многоголосной среде в системах прямой трансляции. Преодоление этих проблем критически важно для развития области и обеспечения более точной и контекстно-осознанной обработки речи.

Текущие методы оценки SLM

Текущие методы оценки SLM в основном сосредоточены на семантической и синтаксической точности через текстовые метрики, такие как предсказание слов и согласованность предложений. Однако эти методы имеют существенные ограничения. Они либо сосредоточены на одном аспекте акустики (например, просодии), либо полагаются на метрики, основанные на генерации, которые требуют вычислительных ресурсов и не подходят для реального времени. Кроме того, текстовые оценки не учитывают богатство нелингвистической информации, присутствующей в речи, такой как идентификация диктора или акустика помещения, что может радикально изменить восприятие сказанного. В результате существующие подходы недостаточны для оценки комплексной производительности SLM в средах, где критичны как семантическая, так и акустическая согласованность.

Инновационный подход SALMON

Исследователи из Иерусалимского университета представляют SALMON, комплексный набор оценок, специально разработанный для оценки акустической согласованности и акустической-семантической согласованности SLM. SALMON вводит две основные задачи оценки: (i) акустическая согласованность и (ii) акустическая-семантическая согласованность, которые тестируют, насколько хорошо модель может поддерживать акустические свойства и согласовывать их с произнесенным текстом. Например, SALMON оценивает, может ли модель обнаружить неестественные сдвиги в идентификации диктора, фоновом шуме или настроении в аудиозаписи. Он использует моделирующий подход, который присваивает более высокие вероятности акустически согласованным образцам по сравнению с теми, у которых изменены или несогласованные характеристики. Этот метод позволяет быстро и масштабируемо оценивать даже большие модели, что делает его подходящим для реальных приложений. Фокусируясь на широком спектре акустических элементов, таких как настроение, идентификация диктора, фоновый шум и акустика помещения, SALMON представляет собой значительное новшество в способе оценки SLM, расширяя границы оценки моделей речи.

Оценка SLM с помощью SALMON

SALMON использует несколько акустических бенчмарков для оценки различных аспектов согласованности речи. Эти бенчмарки используют специально подобранные наборы данных для тестирования моделей по таким измерениям, как согласованность диктора (с использованием набора данных VCTK), согласованность настроения (с использованием набора данных Expresso) и согласованность фонового шума (с использованием наборов данных LJ Speech и FSD50K). Задача акустической согласованности оценивает, может ли модель поддерживать характеристики, такие как идентификация диктора, на протяжении записи или обнаруживать изменения в акустике помещения. Например, в задаче согласованности импульсных характеристик помещения (RIR) аудиозапись записывается с разной акустикой в каждой половине клипа, и модель должна правильно идентифицировать этот изменения.

В задаче акустической-семантической согласованности набор вызывает модели сопоставить фоновую среду или настроение речи с соответствующими акустическими сигналами. Например, если речь относится к “спокойному пляжу”, модель должна присвоить более высокую вероятность записи с звуками океана, чем с шумом строительства. Это согласование тестируется с использованием данных, синтезированных из систем Azure Text-to-Speech и отфильтрованных вручную для обеспечения ясных и однозначных примеров. Бенчмарки являются вычислительно эффективными, поскольку не требуют человеческого вмешательства или дополнительных моделей во время выполнения, что делает SALMON масштабируемым решением для оценки SLM в различных акустических средах.

Результаты оценки SLM с помощью SALMON

Оценка нескольких моделей речевых языковых моделей с использованием SALMON показала, что хотя текущие модели могут справляться с базовыми акустическими задачами, они значительно уступают людям в более сложных акустических-семантических задачах. Человеческие оценщики последовательно набирали более 90% в задачах, таких как согласование настроения и обнаружение фонового шума, в то время как модели, такие как TWIST 7B и pGSLM, достигали гораздо более низких уровней точности, часто проявляя лишь незначительное превосходство над случайным выбором. Для более простых задач, таких как согласованность пола, модели, такие как pGSLM, показали себя лучше, достигая точности 88,5%. Однако в более сложных задачах, требующих тонкого понимания акустики, таких как обнаружение импульсных характеристик помещения или поддержание акустической согласованности в различных средах, даже лучшие модели значительно отстают от возможностей человека. Эти результаты указывают на явную необходимость улучшения способности SLM совместно моделировать семантические и акустические особенности, подчеркивая важность развития моделей, осознающих акустику для будущих приложений.

Заключение

SALMON предоставляет комплексный набор для оценки акустического моделирования в речевых языковых моделях, заполняя пробел, оставленный традиционными методами оценки, сосредоточенными в основном на текстовой согласованности. Представляя бенчмарки, оценивающие акустическую согласованность и акустическую-семантическую согласованность, SALMON позволяет исследователям выявить сильные и слабые стороны моделей в различных акустических измерениях. Результаты демонстрируют, что хотя текущие модели могут справляться с некоторыми задачами, они значительно уступают людям в более сложных сценариях. В результате ожидается, что SALMON будет направлять будущие исследования и развитие моделей в сторону более осознающих акустику и контекстно обогащенных моделей, расширяя границы того, что SLM могут достичь в реальных приложениях.

Проверьте статью и страницу на GitHub. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn. Если вам понравилась наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу в Reddit.

БЕСПЛАТНЫЙ ВЕБИНАР ПО ИИ: “SAM 2 для видео: как настроить на ваши данные” (ср, 25 сентября, 4:00 – 4:45 EST)

Опубликовано на MarkTechPost.

“`

Полезные ссылки: