Meta AI представила Apollo: новую семью моделей для понимания видео.

 Meta AI Releases Apollo: A New Family of Video-LMMs Large Multimodal Models for Video Understanding

“`html

Meta AI представляет Apollo: Новая семья видео-LMM

Модели Apollo разработаны для обработки видео длительностью до одного часа и демонстрируют высокую эффективность в ключевых задачах видео-языка. Apollo доступен в трех размерах: 1.5B, 3B и 7B параметров, что позволяет адаптироваться к различным вычислительным ограничениям и потребностям.

Ключевые инновации:

  • Согласованность масштабирования: Дизайнерские решения для меньших моделей эффективно переносятся на большие, что снижает необходимость в масштабных экспериментах.
  • Выборка кадров в секунду: Более эффективная техника выборки видео, обеспечивающая лучшую временную согласованность.
  • Двойные визуальные кодеры: Сочетание SigLIP для пространственного понимания и InternVideo2 для временного анализа.
  • ApolloBench: Кураторный набор бенчмарков, который снижает избыточность в оценке и предоставляет подробные данные о производительности модели.

Технические преимущества:

  • Выборка кадров в секунду: Позволяет лучше понимать движение и последовательность событий в видео.
  • Согласованность масштабирования: Дизайнерские решения для моделей среднего размера хорошо обобщаются на большие модели.
  • Двойные визуальные кодеры: SigLIP и InternVideo2 обеспечивают более точные представления видео.
  • Пересampling токенов: Эффективно уменьшает количество токенов видео без потери информации.
  • Оптимизированное обучение: Трехступенчатый процесс обучения для стабильного и эффективного обучения.
  • Многоходовые разговоры: Поддержка интерактивных разговоров на основе видео-контента.

Результаты производительности:

Модели Apollo показывают отличные результаты на нескольких бенчмарках, часто превосходя более крупные модели:

  • Apollo-1.5B: Превосходит модели Phi-3.5-Vision (4.2B) и LongVA-7B.
  • Apollo-3B: Конкурирует и превосходит многие 7B модели.
  • Apollo-7B: Сравнивается и даже превосходит модели с более чем 30B параметрами.

Заключение:

Apollo представляет собой значительный шаг вперед в разработке видео-LMM. Он предлагает практичные решения для реальных приложений, таких как ответ на вопросы по видео и анализ контента. Введение ApolloBench упрощает и улучшает оценку видео-LMM, открывая путь для будущих исследований.

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ), используйте решения Apollo. Проанализируйте, как ИИ может изменить вашу работу, определите ключевые показатели эффективности (KPI) и внедряйте ИИ постепенно.

Если вам нужны советы по внедрению ИИ, пишите нам в Телеграм. Следите за новостями о ИИ в нашем канале или в Twitter.

Попробуйте AI Sales Bot, который помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab. Будущее уже здесь!

“`

Полезные ссылки: