Китайские исследователи разработали новые методы сжатия и обработки видео с длинным контекстом, которые требуют в 100 раз меньше вычислений.

 Researchers from China Develop Advanced Compression and Learning Techniques to process  Long-Context Videos at 100 Times Less Compute

“`html

Искусственный интеллект и обработка длинных видео

Одной из самых значимых возможностей мультимодальных языковых моделей является моделирование длинного контекста видео, что позволяет обрабатывать фильмы, документальные ленты и прямые трансляции, продолжающиеся несколько часов. Однако, несмотря на достижения в этой области, существует множество проблем, особенно в понимании контекста длинных видео.

Практические решения и их ценность

Исследователи из Шэньчжэньского института передовых технологий предложили иерархический метод сжатия видео-токенов (HiCo) и систему моделирования контекста VideoChat-Flash. Эти решения нацелены на эффективную обработку длинных видео.

HiCo уменьшает визуальные избыточности, сжимая длинные контексты на уровне клипов и видео, что позволяет сократить вычисления и сохранить важные данные.

VideoChat-Flash использует многоступенчатую схему обучения и обширный набор данных реальных длинных видео. Это позволяет adequately понимать длинные видео с помощью высокопараллельной инфраструктуры обучения.

Метод сжатия HiCo позволяет получить высокоплотные токеновые представления и расширить контекстное окно. Длинные видео сегментируются на короткие клипы, что снижает количество токенов благодаря пространственно-временным избыточностям.

VideoChat-Flash начинает обучение с коротких видео, затем переходит к длинным, используя набор данных из 300,000 часов видео с аннотациями на 2 миллиарда слов для тонкой настройки.

Новая задача “иголка в стоге сена” (NIAH) требует от модели находить последовательность взаимосвязанных изображений в видео, что повышает требования к пониманию контекста.

Достижения и результаты

Предложенный метод продемонстрировал сокращение вычислений до двух порядков. VideoChat-Flash показал выдающиеся результаты на различных бенчмарках как коротких, так и длинных видео, устанавливая новые рекорды точности.

Заключение: Внедрение иерархической техники сжатия HiCo и системы VideoChat-Flash сделало возможным более эффективную обработку длинных видео, что превосходит существующие модели по показателям точности.

Как ваше предприятие может использовать ИИ

Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, вот несколько шагов:

  • Проанализируйте, как ИИ может изменить вашу работу.
  • Определите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ.
  • Подберите подходящее решение для вашей компании.
  • Начните с небольшого проекта и постепенно расширяйте автоматизацию на основе полученных данных.

Если вам нужны советы по внедрению ИИ, пишите нам. Следите за новостями о ИИ в нашем Телеграм-канале или Twitter.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab, будущее уже здесь!

“`

Полезные ссылки: