Оценка геометрического восприятия в моделях компьютерного зрения для длительного отслеживания точек

 Evaluating Geometric Awareness in Large-Scale Vision Models for Long-Term Point Tracking

“`html

Оценка геометрического осознания в масштабных моделях компьютерного зрения для долгосрочного отслеживания точек

Сильные обобщающие способности масштабных моделей компьютерного зрения привели к их удивительной производительности в различных задачах компьютерного зрения. Они обладают адаптивностью и способны обрабатывать различные задачи без большого количества специфического обучения. Особенно полезны эти модели в задачах сопоставления двух видов, где необходимо поддерживать соответствие между двумя точками или особенностями на изображении.

Тем не менее, существует значительная проблема, которая не получила должного внимания: насколько эффективно эти модели работают в задачах погони за одной и той же точкой в динамичных и сложных ситуациях.

Для решения этой задачи исследователи оценили геометрическое осознание моделей компьютерного зрения в конкретной области отслеживания точек. Оценка включала тестирование на трех различных экспериментальных установках.

  • Настройка без обучения: в этой конфигурации модели не обучаются дополнительно, и цель состоит в оценке их способности отслеживать точки, используя только заранее изученные особенности.
  • Использование слоев низкой емкости для исследования: в этом методе предварительная модель дополняется слоями низкой емкости, которые изучают встроенную в модель геометрическую информацию.
  • Тонкая настройка с применением метода низкоранговой адаптации (LoRA): в данном сценарии используется метод, позволяющий проводить эффективную тонкую настройку модели, изменяя лишь ограниченное количество параметров.

Результаты этих оценок позволили получить интересные выводы. В условиях настройки без обучения обнаружено, что две известные модели, Stable Diffusion и DINOv2, обладают лучшими геометрическими способностями в отслеживании точек. DINOv2 продемонстрировала производительность, сравнимую с полностью обученными моделями, в ситуации адаптации, указывая на ее потенциал в качестве инициализации для задач долговременного корреспонденции.

Эти исследования расширяют область применения масштабных моделей компьютерного зрения, подтверждая их потенциал в сложных задачах, таких как отслеживание объектов и автономные системы. Модели, такие как Stable Diffusion и DINOv2, оценивались в условиях без обучения, исследования и тонкой настройки.

Посмотрите статью и проект. Все авторские права на это исследование принадлежат его авторам.

Не забудьте связаться с нами, если вам нужны советы по внедрению ИИ.

Приходите на наш бесплатный вебинар по ИИ: “SAM 2 для видео: как провести тонкую настройку на ваших данных” (ср, 25 сентября, 11:00 – 11:45 GMT+3).

“`

Полезные ссылки: