Google DeepMind представляет YouTube-SL-25: многоязычный корпус с более чем 3 000 часов видеороликов на языке жестов на 25+ языках

Itinai.com overwhelmed ui interface google style million butt 4839bc38 e4ae 425e bf30 fe84f7941f4c 3

«`html

Исследование языка жестов: прорыв в технологиях AI

Исследования языка жестов направлены на развитие технологий, улучшающих понимание, перевод и интерпретацию языков жестов, используемых глухими и слабослышащими по всему миру. Это включает создание обширных наборов данных, разработку сложных моделей машинного обучения и усовершенствование инструментов для перевода и идентификации в различных приложениях. Это улучшает включение и доступность для людей, зависящих от языка жестов для повседневной коммуникации.

Проблемы и практические решения

Основная проблема заключается в нехватке данных для многих языков жестов. В отличие от устных языков, языки жестов не имеют стандартизированной письменной формы, что усложняет сбор и обработку данных. Это ограничивает развитие эффективных инструментов перевода и интерпретации, особенно для малоизученных языков жестов.

Существующие методы обработки языков жестов включают специализированные наборы данных, такие как YouTube-ASL для американского языка жестов (ASL) и BOBSL для британского языка жестов (BSL). Однако эти наборы данных часто ограничены отдельными языками и включают трудоемкие ручные процессы аннотации. Необходимо сделать методы автоматической аннотации более масштабируемыми для учета разнообразия языков жестов по всему миру.

Исследователи Google и Google DeepMind представили YouTube-SL-25, обширный многоязычный корпус видеороликов с языком жестов. Этот набор данных является самым крупным и разнообразным в своем роде, включая более 3 000 часов видеоматериалов и представляя более 3 000 уникальных жестовщиков на 25 языках жестов. YouTube-SL-25 значительно расширяет ресурсы для перевода и идентификации языков жестов.

Создание YouTube-SL-25 предполагало тщательный двухэтапный процесс. Во-первых, автоматические классификаторы определяли потенциальные видеоролики с языком жестов на YouTube, а затем исследователи производили триаж и отбирали видео на основе качества содержания и выравнивания. Этот подход позволил собрать 81 623 кандидатских видеоролика, затем отобрать 39 197 высококачественных видео, общим объемом 3 207 часов. Набор данных включает хорошо выровненные подписи на 2,16 миллиона символов, устанавливая новый стандарт для наборов данных языков жестов.

Практическая ценность набора данных продемонстрирована через benchmarks с использованием унифицированной многоязычной модели multitask на основе T5. Результаты показали существенное совершенствование в высокоресурсных и низкоресурсных языках жестов.

YouTube-SL-25 оказывает значительное влияние, предоставляя фундаментальные ресурсы для разработки технологий языков жестов. Этот набор данных решает критические пробелы в доступности данных многоязычных языков жестов, обеспечивая лучшую предварительную подготовку для моделей перевода жестов в текст и улучшая задачи идентификации языков жестов.

В заключение, YouTube-SL-25 представляет собой переломное достижение в исследованиях языка жестов, решая проблему дефицита данных и способствуя развитию более эффективных инструментов перевода и интерпретации. Этот ресурс поддерживает модели машинного обучения высокого качества и способствует большей инклюзивности для глухих и слабослышащих по всему миру, обеспечивая технологическое развитие в области широкой доступности и понимания.

«`