ViSMaP: Ненадзорное резюмирование часовых видео с использованием мета-промптирования и коротких наборов данных
Модели аннотирования видео обычно обучаются на наборах данных, состоящих из коротких видео, длительностью до трех минут, с соответствующими подписями. Хотя это позволяет им описывать базовые действия, такие как ходьба или разговор, эти модели испытывают трудности с более сложными длинными видео, такими как влоги, спортивные события и фильмы, которые могут длиться более часа. При применении к таким видео они часто генерируют фрагментированные описания, сосредоточенные на изолированных действиях, а не захватывающие общую сюжетную линию.
Проблемы с длинными видео
Несмотря на усилия, такие как MA-LMM и LaViLa, которые расширили аннотирование видео до 10-минутных клипов, часовые видео остаются проблемой из-за нехватки подходящих наборов данных. Хотя Ego4D представил большой набор данных часовых видео, его перспектива от первого лица ограничивает более широкое применение. Video ReCap закрыл этот пробел, обучаясь на часовых видео с многоуровневыми аннотациями, однако этот подход дорог и подвержен несоответствиям в аннотациях.
Решение: ViSMaP
Исследователи из Университета Куин Мэри и Spotify представляют ViSMaP, ненадзорный метод резюмирования часовых видео без необходимости в дорогих аннотациях. ViSMaP использует LLM и стратегию мета-промптирования для итеративного создания и уточнения псевдосводок из описаний клипов, созданных моделями коротких видео. Процесс включает три LLM, работающие последовательно для генерации, оценки и оптимизации промптов.
Методология
Модель обучается на аннотированном наборе коротких видео и адаптируется к неаннотированным часовым видео из другой области. Вначале модель обучается резюмировать 3-минутные видео, используя функции TimeSFormer, модуль визуально-языкового соответствия и текстовый декодер. Длинные видео сегментируются на 3-минутные клипы, и генерируются псевдоподписи.
Оценка и результаты
ViSMaP оценивается по трем сценариям: резюмирование длинных видео, кросс-доменная генерализация и адаптация к коротким видео. ViSMaP, обученная на часовых видео, демонстрирует конкурентоспособные результаты по сравнению с методами с надзором и без него, такими как Video ReCap и LaViLa+GPT3.5.
Практические рекомендации для бизнеса
- Изучите, какие процессы можно автоматизировать с помощью ИИ.
- Определите ключевые показатели эффективности (KPI), чтобы убедиться, что ваши инвестиции в ИИ приносят положительный результат.
- Выберите инструменты, которые соответствуют вашим потребностям и позволяют настраивать их под ваши цели.
- Начните с небольшого проекта, собирайте данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.
Контактная информация
Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram.
Пример решения на основе ИИ
Посмотрите практический пример решения на основе ИИ: бот продаж от itinai.ru/aisales, предназначенный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах клиентского пути.