Китайские исследователи разработали новые методы сжатия и обработки видео с длинным контекстом, которые требуют в 100 раз меньше вычислений.

Легче сразу спросить 💭

AI снижает операционные расходы на 20–40% 📊 за 6 месяцев. А что бы вы сделали с этими деньгами?

Опишите задачу — обсудим, как это можно реализовать у вас.

ИИ автоматизирует 70% рутинных задач 🤖 за 3 месяца. Какие процессы в вашем бизнесе скинуть роботу?
Персонализированные AI-кампании увеличивают клиентскую базу на 30% 📈. Как это работает?
AI-аналитика сокращает ошибки в прогнозах на 50% 📉. Расскажите подробнее!
 Researchers from China Develop Advanced Compression and Learning Techniques to process  Long-Context Videos at 100 Times Less Compute

«`html

Искусственный интеллект и обработка длинных видео

Одной из самых значимых возможностей мультимодальных языковых моделей является моделирование длинного контекста видео, что позволяет обрабатывать фильмы, документальные ленты и прямые трансляции, продолжающиеся несколько часов. Однако, несмотря на достижения в этой области, существует множество проблем, особенно в понимании контекста длинных видео.

Практические решения и их ценность

Исследователи из Шэньчжэньского института передовых технологий предложили иерархический метод сжатия видео-токенов (HiCo) и систему моделирования контекста VideoChat-Flash. Эти решения нацелены на эффективную обработку длинных видео.

HiCo уменьшает визуальные избыточности, сжимая длинные контексты на уровне клипов и видео, что позволяет сократить вычисления и сохранить важные данные.

VideoChat-Flash использует многоступенчатую схему обучения и обширный набор данных реальных длинных видео. Это позволяет adequately понимать длинные видео с помощью высокопараллельной инфраструктуры обучения.

Метод сжатия HiCo позволяет получить высокоплотные токеновые представления и расширить контекстное окно. Длинные видео сегментируются на короткие клипы, что снижает количество токенов благодаря пространственно-временным избыточностям.

VideoChat-Flash начинает обучение с коротких видео, затем переходит к длинным, используя набор данных из 300,000 часов видео с аннотациями на 2 миллиарда слов для тонкой настройки.

Новая задача «иголка в стоге сена» (NIAH) требует от модели находить последовательность взаимосвязанных изображений в видео, что повышает требования к пониманию контекста.

Достижения и результаты

Предложенный метод продемонстрировал сокращение вычислений до двух порядков. VideoChat-Flash показал выдающиеся результаты на различных бенчмарках как коротких, так и длинных видео, устанавливая новые рекорды точности.

Заключение: Внедрение иерархической техники сжатия HiCo и системы VideoChat-Flash сделало возможным более эффективную обработку длинных видео, что превосходит существующие модели по показателям точности.

Как ваше предприятие может использовать ИИ

Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, вот несколько шагов:

  • Проанализируйте, как ИИ может изменить вашу работу.
  • Определите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ.
  • Подберите подходящее решение для вашей компании.
  • Начните с небольшого проекта и постепенно расширяйте автоматизацию на основе полученных данных.

Если вам нужны советы по внедрению ИИ, пишите нам. Следите за новостями о ИИ в нашем Телеграм-канале или Twitter.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab, будущее уже здесь!

«`

Полезные ссылки:

Новости в сфере искусственного интеллекта