Эффективная альтернатива самовниманию для потокового распознавания речи

Itinai.com it company office background blured photography by 4eb35f19 7615 468b aeb9 1b0429702b67 1

«`html

Автоматическое распознавание речи (ASR) в Искусственном Интеллекте

Автоматическое распознавание речи (ASR) играет ключевую роль в Искусственном Интеллекте, позволяя транскрибировать устную речь в текст. Технология ASR широко применяется в виртуальных помощниках, системах реального времени и голосовых устройствах. Эти системы улучшают доступность и обеспечивают беспроводное управление, что существенно улучшает взаимодействие пользователей с технологией.

Решение проблемы сложности обработки длинных речевых последовательностей

Одной из основных проблем ASR систем является эффективная обработка длинных речевых высказываний, особенно на устройствах с ограниченными вычислительными ресурсами. Многие существующие системы ASR имеют сложность времени квадратичного порядка, что становится критическим узким местом при реализации ASR на устройствах с низкой задержкой, таких как мобильные телефоны или встроенные системы.

Разработка нового метода: SummaryMixing

Исследователи из Samsung AI Center – Cambridge представили новый метод под названием SummaryMixing, который уменьшает временную сложность ASR с квадратичной до линейной. Этот метод, интегрированный в архитектуру конформерного трансдьюсера, обеспечивает более эффективное распознавание речи в режиме реального времени и не в реальном времени.

Практическое применение и эффективность

Метод SummaryMixing предлагает практическое решение для ASR систем, обеспечивая линейную временную сложность, поддерживая высокую точность и уменьшая потребление памяти. Это делает его идеальным для применения в ресурсоемких средах и является перспективным решением для будущих приложений ASR в реальном времени и офлайн.

Подробнее о методе вы можете прочитать в статье и на странице GitHub.

Авторство за это исследование принадлежит его исследователям.

Не забудьте подписаться на наш Twitter и присоединиться к нашему каналу в Telegram и LinkedIn. Если вам понравилась наша работа, вам обязательно понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу более чем в 50 тысяч человек в ML SubReddit.

Бесплатный вебинар по Искусственному Интеллекту: ‘SAM 2 для видео: Как настроить на ваши данные’ (Ср, 25 сентября, 4:00 – 4:45 по восточному времени).

Оригинал статьи: SummaryMixing: A Linear-Time Complexity Alternative to Self-Attention, to Streaming Speech Recognition with a Streaming and Non-Streaming Conformer Transducer.

«`