Система одновременного перевода речи CLASI: высококачественный и естественный перевод

 Bytedance Researchers Present Cross Language Agent – Simultaneous Interpretation (CLASI): A High-Quality And Human-Like Simultaneous Speech Translation (SiST) System

“`html

Одним из самых сложных вызовов в области перевода является одновременный перевод речи (SiST).

Способность переводить устную речь на другой язык в режиме реального времени известна как одновременный перевод речи и открывает путь к мгновенному общению на разных языках. Машинно-помогаемый автономный перевод в области обработки естественного языка (NLP) вызвал большой интерес. При этом в традиционных системах одновременного перевода обычно используются потоковое автоматическое распознавание речи (ASR), пунктуация и модели машинного перевода (MT) в каскадной системе. К сожалению, модуль ASR является общим источником задержки и распространения ошибок в таких каскадных системах.

Академические модели SiST и коммерческие движки SiST значительно продвинулись, однако качество перевода все еще нуждается в улучшении.

С помощью участия людей исследования оценили доступные системы SiST в их текущем состоянии. Эти системы значительно влияют на эффективность коммуникации с точки зрения пользователя, так как они предоставляют слушателям менее 42% правильной информации. С другой стороны, человеческий переводчик может передать не менее 95% задуманного смысла и часто более 70%. В результате исследователи используют 80% для обозначения высококвалифицированных человеческих переводчиков в данной работе. LLM рекомендуется для выполнения задачи SiST из-за их огромного успеха в машинном и устном переводе.

CLASI позволяет преодолеть препятствия в одновременном переводе речи.

CLASI преодолевает первое препятствие путем эмуляции подхода человеческих переводчиков к сегментации полных предложений на более мелкие, более управляемые части на основе синтаксических маркеров и контекстного значения. Это достигается с помощью метода обучения политики на основе данных, позволяющего CLASI изучать и применять строгую политику чтения-записи для SiST. Для преодоления второго препятствия агент CLASI был усилен двумя дополнительными модулями: памятью, которая записывает контекст речи, и внешней базой знаний с терминологией и соответствующими переводами. Однако внешняя база знаний может внести шум и замедлить технику. Для устранения этого исследователи предлагают новый метод под названием Multi-Modal Retrieval Augmented Generation (MM-RAG). Этот метод использует многомодальный поисковик для поиска соответствующей информации во внешней базе данных, тем самым повышая эффективность агента CLASI.

CLASI предлагает новую метрику оценки – Valid Information Proportion (VIP)2.

Основная цель SiST – это общение в реальном времени, и VIP показывает долю информации, которую можно передать точно. Исследователи обнаружили, что предложенный метод значительно превосходит другие доступные алгоритмы в человеческих оценках, проведенных на сложных реальных длинных речевых наборах данных, разнообразных по тематике. Например, в направлении перевода с китайского на английский CLASI получает оценку VIP в 81,3%, что гораздо лучше, чем у человеческих переводчиков. Этот обнадеживающий результат указывает на светлое будущее для SiST.

Результаты в направлениях перевода с китайского на английский и с английского на китайский были намного лучше, чем у коммерческих систем, но команда отмечает, что в будущем следует расширить языковые возможности. Каждый раунд перевода вызывает полную последовательность действий в представленной реализации CLASI. Поскольку модель может точно переводить без внешних знаний, некоторые действия являются опциональными для простых сценариев перевода. В будущем модель можно обучить пропускать дополнительные шаги.

Для улучшенной человеческой оценки предлагается использовать метрику Valid Information Proportion (VIP).

Это подчеркивает необходимость более надежных автоматизированных измерений качества и задержки в будущем. Доказательства также указывают на потенциал обучения с подкреплением от обратной связи человека (RLHF) для улучшения производительности LLM. В то время как CLASI превосходит предыдущие передовые системы, явно требуется дополнительное исследование для улучшения многомодальных моделей вознаграждения, а также RL-подходов для SiST. Перспективные области изучения включают многомодальную интеграцию, такую как конечная видео-видео или речь-речь.

Подробнее о статье можно узнать здесь. Все заслуги за это исследование принадлежат исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашей группе в LinkedIn. Если вам нравится наша работа, вам понравится и наш новостной бюллетень.

Не забудьте присоединиться к нашему сообществу в Reddit – более 47 тыс. участников.

Находите предстоящие вебинары по ИИ здесь.

Arcee AI выпустила DistillKit: открытый инструмент для моделирования, преобразующий дистилляцию модели для создания эффективных высокопроизводительных малых языковых моделей.

“`

Полезные ссылки: