ViSMaP: Эффективное Обобщение Долгих Видео Без Аннотаций

ViSMaP: Ненадзорное резюмирование часовых видео с использованием мета-промптирования и коротких наборов данных

Модели аннотирования видео обычно обучаются на наборах данных, состоящих из коротких видео, длительностью до трех минут, с соответствующими подписями. Хотя это позволяет им описывать базовые действия, такие как ходьба или разговор, эти модели испытывают трудности с более сложными длинными видео, такими как влоги, спортивные события и фильмы, которые могут длиться более часа. При применении к таким видео они часто генерируют фрагментированные описания, сосредоточенные на изолированных действиях, а не захватывающие общую сюжетную линию.

Проблемы с длинными видео

Несмотря на усилия, такие как MA-LMM и LaViLa, которые расширили аннотирование видео до 10-минутных клипов, часовые видео остаются проблемой из-за нехватки подходящих наборов данных. Хотя Ego4D представил большой набор данных часовых видео, его перспектива от первого лица ограничивает более широкое применение. Video ReCap закрыл этот пробел, обучаясь на часовых видео с многоуровневыми аннотациями, однако этот подход дорог и подвержен несоответствиям в аннотациях.

Решение: ViSMaP

Исследователи из Университета Куин Мэри и Spotify представляют ViSMaP, ненадзорный метод резюмирования часовых видео без необходимости в дорогих аннотациях. ViSMaP использует LLM и стратегию мета-промптирования для итеративного создания и уточнения псевдосводок из описаний клипов, созданных моделями коротких видео. Процесс включает три LLM, работающие последовательно для генерации, оценки и оптимизации промптов.

Методология

Модель обучается на аннотированном наборе коротких видео и адаптируется к неаннотированным часовым видео из другой области. Вначале модель обучается резюмировать 3-минутные видео, используя функции TimeSFormer, модуль визуально-языкового соответствия и текстовый декодер. Длинные видео сегментируются на 3-минутные клипы, и генерируются псевдоподписи.

Оценка и результаты

ViSMaP оценивается по трем сценариям: резюмирование длинных видео, кросс-доменная генерализация и адаптация к коротким видео. ViSMaP, обученная на часовых видео, демонстрирует конкурентоспособные результаты по сравнению с методами с надзором и без него, такими как Video ReCap и LaViLa+GPT3.5.

AI Technology

Практические рекомендации для бизнеса

  • Изучите, какие процессы можно автоматизировать с помощью ИИ.
  • Определите ключевые показатели эффективности (KPI), чтобы убедиться, что ваши инвестиции в ИИ приносят положительный результат.
  • Выберите инструменты, которые соответствуют вашим потребностям и позволяют настраивать их под ваши цели.
  • Начните с небольшого проекта, собирайте данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.

Контактная информация

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram.

Пример решения на основе ИИ

Посмотрите практический пример решения на основе ИИ: бот продаж от itinai.ru/aisales, предназначенный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.

Новости в сфере искусственного интеллекта