Lotus: Новая модель визуального фундамента на основе диффузии для плотного предсказания геометрии
Практические решения и ценность:
Методы плотного предсказания геометрии включают оценку свойств, таких как глубина и нормали поверхности, для каждого пикселя на изображении. Точное предсказание геометрии критично для таких приложений, как робототехника, автономное вождение и дополненная реальность. Существующие методы часто требуют обширного обучения на размеченных наборах данных и испытывают трудности с обобщением на различные задачи.
Для преодоления этих вызовов команда исследователей из HKUST(GZ), Университета Аделаиды, Huawei Noah’s Ark Lab и HKU представила Lotus – новую модель визуального фундамента на основе диффузии, направленную на улучшение качественного плотного предсказания геометрии. Lotus способен обрабатывать различные задачи восприятия геометрии, такие как Оценка глубины и нормалей в нулевом режиме, с помощью единого подхода. В отличие от традиционных моделей, Lotus использует процессы диффузии для генерации визуальных предсказаний, что делает его более гибким и способным адаптироваться к различным задачам плотного предсказания без необходимости обширной переобучения.
Lotus представляет собой модель визуального фундамента на основе диффузии, что означает использование вероятностного процесса диффузии для генерации подробных предсказаний геометрии из визуальных входных данных. Этот подход позволяет Lotus захватывать богатые геометрические детали, которые часто упускаются традиционными моделями на основе сверточных нейронных сетей.
Исследователи разработали Lotus для работы в режиме нулевого обучения, что позволяет ему обобщаться на новые задачи предсказания геометрии без необходимости специфического обучения. Это делает Lotus универсальным инструментом для плотного визуального предсказания, подходящим для различных приложений, где ключевым является адаптивность. В экспериментах Lotus достиг состояния искусства на двух основных задачах восприятия геометрии: Оценке глубины и нормалей в нулевом режиме. Модель превзошла существующие базовые уровни, продемонстрировав свою эффективность в создании высококачественных предсказаний геометрии даже в сложных, невидимых сценариях.
Помимо высокой производительности, Lotus также поставляется с удобными инструментами для исследования его возможностей. Авторы выпустили два приложения Gradio на площадке Hugging Face Spaces, предоставляя интерактивный способ для пользователей экспериментировать с Lotus и увидеть, как он работает на реальных данных.
В целом, Lotus представляет собой значительное совершенствование в области плотного предсказания геометрии. За счет использования подхода на основе диффузии он эффективно преодолевает ограничения традиционных методов, обеспечивая гибкое и мощное решение для различных задач визуального предсказания. Его впечатляющая производительность в режиме нулевого обучения подчеркивает его потенциал как модели визуального фундамента для широкого спектра приложений.