Обучение работы с длинными аудиозаписями: Audio Mamba достигает производительности на уровне трансформера без самовнимания

 Taming Long Audio Sequences: Audio Mamba Achieves Transformer-Level Performance Without Self-Attention

“`html

Аудиоклассификация с использованием модели Audio Mamba

Проблема и решение

Аудиоклассификация с использованием глубокого обучения претерпела значительные изменения благодаря принятию моделей глубокого обучения. Первоначально доминировали сверточные нейронные сети (CNN), но затем область перешла к трансформерным архитектурам, которые обеспечивают улучшенную производительность и способность обрабатывать различные задачи через унифицированный подход. Трансформеры превосходят CNN в производительности, создавая парадигмальный сдвиг в глубоком обучении, особенно для функций, требующих обширного контекстного понимания и обработки разнообразных типов входных данных.

Основной вызов в аудиоклассификации – это вычислительная сложность, связанная с трансформерами, особенно из-за их механизма самовнимания, который масштабируется квадратично с длиной последовательности. Это делает их неэффективными для обработки длинных аудиопоследовательностей, что требует альтернативных методов для поддержания производительности при снижении вычислительной нагрузки. Решение этой проблемы критично для разработки моделей, способных эффективно обрабатывать увеличивающийся объем и сложность аудиоданных в различных приложениях, от распознавания речи до классификации звуков окружающей среды.

В настоящее время наиболее известным методом для аудиоклассификации является Audio Spectrogram Transformer (AST). AST использует механизмы самовнимания для захвата глобального контекста в аудиоданных, но сталкивается с высокими вычислительными затратами. Модели пространства состояний (SSM) были исследованы как потенциальная альтернатива, обеспечивая линейное масштабирование с длиной последовательности. SSM, такие как Mamba, показали перспективу в задачах языка и зрения, заменяя самовнимание на параметры, изменяющиеся во времени, для более эффективного захвата глобального контекста. Несмотря на их успех в других областях, SSM до сих пор не получили широкого распространения в аудиоклассификации, представляя возможность для инноваций в этой области.

Исследователи из Корейского института науки и технологий представили Audio Mamba (AuM), новую модель без самовнимания на основе моделей пространства состояний для аудиоклассификации. Эта модель эффективно обрабатывает аудиоспектрограммы с использованием двунаправленного подхода для обработки длинных последовательностей без квадратичного масштабирования, характерного для трансформеров. Модель AuM нацелена на устранение вычислительной нагрузки самовнимания, используя SSM для поддержания высокой производительности и улучшения эффективности. Решая неэффективности трансформеров, AuM предлагает многообещающую альтернативу для задач аудиоклассификации.

Архитектура и производительность

Архитектура Audio Mamba включает преобразование входных аудиоволн в спектрограммы, которые затем делятся на фрагменты. Эти фрагменты преобразуются в токены вложения и обрабатываются с использованием двунаправленных моделей пространства состояний. Модель работает в обоих направлениях, эффективно захватывая глобальный контекст и поддерживая линейную временную сложность, тем самым улучшая скорость обработки и использование памяти по сравнению с AST. Архитектура включает несколько инновационных дизайнерских решений, таких как стратегическое размещение обучаемого токена классификации посередине последовательности и использование позиционных вложений для улучшения способности модели понимать пространственную структуру входных данных.

Результаты и эффективность

Audio Mamba продемонстрировала конкурентоспособную производительность на различных бенчмарках, включая AudioSet, VGGSound и VoxCeleb. Модель достигла сопоставимых или лучших результатов по сравнению с AST, особенно выделяясь в задачах с длинными аудиопоследовательностями. Например, на наборе данных VGGSound Audio Mamba превзошла AST, обеспечив существенное улучшение точности более чем на 5%, достигнув точности 42,58% по сравнению с 37,25% у AST. На наборе данных AudioSet AuM достигла средней средней точности (mAP) 32,43%, превзойдя 29,10% у AST. Эти результаты подчеркивают способность AuM обеспечивать высокую производительность, сохраняя вычислительную эффективность, что делает ее надежным решением для различных задач аудиоклассификации.

Оценка показала, что AuM требует значительно меньше памяти и времени обработки. Например, во время обучения с аудиоклипами продолжительностью 20 секунд AuM потребляла память, эквивалентную меньшей модели AST, обеспечивая при этом более высокую производительность. Кроме того, время вывода AuM было в 1,6 раза быстрее, чем у AST при количестве токенов 4096, что демонстрирует его эффективность в обработке длинных последовательностей. Это снижение вычислительных требований без ущерба точности указывает на то, что AuM хорошо подходит для реальных приложений, где ограничения ресурсов являются критическими.

Заключение и перспективы

Внедрение Audio Mamba представляет собой значительный прогресс в аудиоклассификации за счет устранения ограничений самовнимания в трансформерах. Эффективность модели и конкурентоспособная производительность подчеркивают ее потенциал как жизнеспособной альтернативы для обработки длинных аудиопоследовательностей. Исследователи считают, что подход Audio Mamba может проложить путь для будущих разработок аудио- и мультимодального обучения. Способность эффективно обрабатывать длинные аудиоданные становится все более важной, особенно с ростом самообучения мультимодального обучения и генерации, использующих данные из реальной жизни и автоматического распознавания речи. Кроме того, AuM может быть применена в настройках самообучения, таких как Audio Masked Auto Encoders, или в задачах мультимодального обучения, таких как предварительное обучение аудио-визуальных данных или контрастное языковое аудио-предварительное обучение, способствуя развитию области аудиоклассификации.

Подробнее ознакомьтесь с статьей. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему сообществу из более чем 43 тыс. человек на ML SubReddit. Также ознакомьтесь с нашей платформой AI Events Platform.

Источник: MarkTechPost


“`

Полезные ссылки: