Ученые из Университета Калифорнии в Беркли представляют новый подход к сегментации изображений без необходимости большого объема данных.

 Researchers from UC Berkeley Present UnSAM in Computer Vision: A New Paradigm for Segmentation with Minimal Data, Achieving State-of-the-Art Results Without Human Annotation

Преобразование задач сегментации с помощью моделей на основе трансформеров

Практические решения и ценность

Модели на основе трансформеров в задачах сегментации инициировали новый этап в области компьютерного зрения. Модель Segment Anything от Meta стала эталоном благодаря своей надежной и изысканной производительности. Однако для обучения все еще требуется ручная разметка, что делает процесс трудоемким. Человеческая аннотация затруднительна, ненадежна для чувствительных приложений, а также дорога и затратна по времени. Эти проблемы требуют подхода без меток, который предлагает производительность на уровне SAM, но по более низкой стоимости.

Активные шаги были предприняты в направлении самообучающихся трансформеров и нулевой сегментации с помощью подсказок. Исследователи из UC Berkeley разработали Unsupervised SAM (UnSAM), новый метод без учителя, который позволяет решить указанную проблему. UnSAM использует стратегию “разделяй и властвуй”, чтобы идентифицировать иерархические структуры в визуальных сценах и создавать маски сегментации с различными уровнями детализации на основе этих структур. Стратегии кластеризации Top-Down и Bottom-Up UnSAM генерируют маски, захватывающие самые тонкие детали, обеспечивая параллельную производительность с SA-1B, его человеческим аналогом.

UnSAM превзошел SAM более чем на 6,7% в AR и на 3,9% в AP на наборе данных SA-1B при обучении с 1% набора данных. В среднем UnSAM превзошел предыдущий лучший показатель на 11,0% в AR. Когда UnSAM оценивался на PartImageNet и PACO, он превосходил предыдущие лучшие результаты на 16,6% и 12,6% соответственно. UnSAM+, объединяющий точности SA-1B (1% набора данных) с деталями без учителя, превосходит даже SAM на 1,3%, даже при использовании бэкбона в три раза меньшего размера.

В заключение, UnSAM демонстрирует, что высококачественные результаты могут быть достигнуты без использования огромных наборов данных, созданных силами человека. Малые, легкие архитектуры могут использоваться наряду с масками, созданными UnSAM, для продвижения чувствительных областей, таких как медицина и наука.

Полезные ссылки: