Новая система для эффективного распознавания устных терминов

Itinai.com flat lay of a minimalist ai business toolkit. smal d512725d 5416 4042 96d5 62b63d1987a9 3

«`html

Обнаружение произнесенных терминов (STD)

Обнаружение произнесенных терминов (STD) — это важная область обработки речи, позволяющая выявлять конкретные фразы или термины в больших аудиоархивах. Эта технология активно используется в голосовых поисках, услугах транскрипции и индексировании мультимедиа.

Преимущества STD

Улучшает доступность аудиоданных.
Полезно для подкастов, лекций и медиа-трансляций.

Проблемы в STD

Основные трудности включают:

Обработка терминов вне словаря (OOV).
Высокие вычислительные требования существующих систем.
Трудности в точной сегментации непрерывной речи.

Существующие методы

Существующие подходы включают:

Техники на основе автоматического распознавания речи (ASR).
Динамическое временное выравнивание (DTW).
Акустические векторные представления слов.

Новая технология BEST-STD

Исследователи из Индийского института технологий Канпура и Университета имек предложили новую технологию токенизации речи под названием BEST-STD. Этот подход кодирует речь в дискретные семантические токены, что позволяет эффективно извлекать информацию с помощью текстовых алгоритмов.

Преимущества BEST-STD

Использует двунаправленный кодировщик Mamba для обработки аудио.
Создает согласованные последовательности токенов для разных произношений.
Улучшает обработку OOV терминов.

Технические детали

Система BEST-STD использует:

Двунаправленный кодировщик Mamba.
Динамическое временное выравнивание для создания пар якорь-позитив.
Обратный индекс для хранения токенизированных последовательностей.

Результаты и эффективность

Технология BEST-STD продемонстрировала высокую эффективность в тестах на наборах данных LibriSpeech и TIMIT. Она превзошла традиционные методы и современные модели токенизации в показателях согласованности токенов.

Ключевые результаты

Средняя точность (MAP) для терминов в словаре составила 0.86.
MAP для терминов вне словаря достигла 0.84.
Скорость извлечения информации значительно увеличена благодаря обратному индексу.

Заключение

Внедрение BEST-STD — это значительный шаг вперед в области обнаружения произнесенных терминов. Эта технология предлагает надежное и эффективное решение для задач извлечения аудиоданных, обеспечивая высокую производительность и адаптивность к различным наборам данных.