Введение
Традиционные методы определения глубины часто требуют метаданных, таких как внутренние параметры камеры, или включают дополнительные этапы обработки, что ограничивает их применимость в реальных сценариях. Эти ограничения затрудняют создание точных карт глубины эффективно, особенно для различных приложений, таких как дополненная реальность, виртуальная реальность и продвинутое редактирование изображений. Для решения этих проблем Apple представила Depth Pro, передовую модель искусственного интеллекта, разработанную для метрического монокулярного определения глубины без обучения на доменно-специфических данных, переформатируя область трехмерного зрения, обеспечивая четкие, высококачественные карты глубины в доли секунды.
Заполнение пробела в определении глубины
Depth Pro стремится заполнить пробел в традиционных методах, создавая метрические карты глубины с абсолютным масштабом в условиях нулевого обучения, что означает, что он может создавать подробную информацию о глубине из произвольного изображения без дополнительного обучения на доменно-специфических данных. Вдохновленный предыдущей работой, такой как MiDaS, Depth Pro работает эффективно, генерируя карту глубины с разрешением 2,25 мегапикселя всего за 0,3 секунды на стандартном GPU V100, демонстрируя его практичность для приложений в реальном времени, таких как редактирование изображений, виртуальная реальность и дополненная реальность.
Архитектура и обучение
Архитектура Depth Pro сосредоточена вокруг мульти-масштабного видео-трансформера (ViT), разработанного для балансировки захвата глобального контекста изображения с сохранением мелких структур. В отличие от обычных трансформеров, Depth Pro применяет обычный основной ViT на нескольких масштабах и объединяет прогнозы в один высокоразрешенный вывод, используя преимущества непрерывного улучшения предварительного обучения ViT. Этот мульти-масштабный подход обеспечивает четкое обозначение границ даже в сложных сценариях с тонкими структурами, такими как волосы и мех, которые обычно являются сложными для моделей монокулярного определения глубины.
Оценка производительности
Вклад модели подтверждается обширными экспериментами, демонстрирующими превосходную производительность по сравнению с предыдущими методами по многим параметрам. Depth Pro выделяется особенно в точности границ и задержке, с оценками, показывающими, что он обеспечивает беспрецедентную точность в обозначении мелких структур и границ, значительно превосходя другие передовые модели, такие как Marigold, Depth Anything v2 и Metric3D v2.
Эффективность и ограничения
Эффективность видео-трансформера дополнительно подчеркивается в сравнении скорости: Depth Pro в 10-100 раз быстрее моделей, фокусирующихся на предсказаниях мелких границ, таких как Marigold и PatchFusion. Он достигает этого без ущерба для точности, что делает его отлично подходящим для приложений в реальном времени, таких как интерактивная генерация изображений и опыты с дополненной реальностью.