Новая система для эффективного распознавания устных терминов

 This AI Paper Introduces BEST-STD (Spoken Term Detection): A Novel Bidirectional Mamba-Enhanced Speech Tokenization Framework for Efficient Spoken Term Detection

“`html

Обнаружение произнесенных терминов (STD)

Обнаружение произнесенных терминов (STD) — это важная область обработки речи, позволяющая выявлять конкретные фразы или термины в больших аудиоархивах. Эта технология активно используется в голосовых поисках, услугах транскрипции и индексировании мультимедиа.

Преимущества STD

  • Улучшает доступность аудиоданных.
  • Полезно для подкастов, лекций и медиа-трансляций.

Проблемы в STD

Основные трудности включают:

  • Обработка терминов вне словаря (OOV).
  • Высокие вычислительные требования существующих систем.
  • Трудности в точной сегментации непрерывной речи.

Существующие методы

Существующие подходы включают:

  • Техники на основе автоматического распознавания речи (ASR).
  • Динамическое временное выравнивание (DTW).
  • Акустические векторные представления слов.

Новая технология BEST-STD

Исследователи из Индийского института технологий Канпура и Университета имек предложили новую технологию токенизации речи под названием BEST-STD. Этот подход кодирует речь в дискретные семантические токены, что позволяет эффективно извлекать информацию с помощью текстовых алгоритмов.

Преимущества BEST-STD

  • Использует двунаправленный кодировщик Mamba для обработки аудио.
  • Создает согласованные последовательности токенов для разных произношений.
  • Улучшает обработку OOV терминов.

Технические детали

Система BEST-STD использует:

  • Двунаправленный кодировщик Mamba.
  • Динамическое временное выравнивание для создания пар якорь-позитив.
  • Обратный индекс для хранения токенизированных последовательностей.

Результаты и эффективность

Технология BEST-STD продемонстрировала высокую эффективность в тестах на наборах данных LibriSpeech и TIMIT. Она превзошла традиционные методы и современные модели токенизации в показателях согласованности токенов.

Ключевые результаты

  • Средняя точность (MAP) для терминов в словаре составила 0.86.
  • MAP для терминов вне словаря достигла 0.84.
  • Скорость извлечения информации значительно увеличена благодаря обратному индексу.

Заключение

Внедрение BEST-STD — это значительный шаг вперед в области обнаружения произнесенных терминов. Эта технология предлагает надежное и эффективное решение для задач извлечения аудиоданных, обеспечивая высокую производительность и адаптивность к различным наборам данных.

Как AI может помочь вашей компании

Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, важно:

  • Анализировать, как ИИ может изменить вашу работу.
  • Определить ключевые показатели эффективности (KPI).
  • Внедрять ИИ решения постепенно.

Если вам нужны советы по внедрению ИИ, пишите нам на наш Telegram. Следите за новостями о ИИ в нашем Telegram-канале.

“`

Полезные ссылки: