
Инновации в области семантической сегментации
Недавно в CVPR 2025 была принята работа, в которой представлено решение CASS для контекста на уровне объектов в открытой сегментации. Этот метод превосходит несколько подходов, не требующих обучения, и даже обходит некоторые методы, полагающиеся на дополнительное обучение. Результаты особенно заметны в сложных ситуациях, где объекты имеют сложные подчасти или классы с высокой визуальной схожестью. CASS постоянно предсказывает правильные метки на уровне пикселей, подчеркивая свою точную осведомленность на уровне объектов.
Как это работает?
Открытая семантическая сегментация (OVSS) кардинально меняет подходы в области компьютерного зрения, позволяя моделям сегментировать объекты на основе произвольных пользовательских подсказок, не привязываясь к фиксированному набору категорий. CASS (Сегментация с учетом контекста объектов) – это смелый новый подход, который использует мощные предобученные модели для достижения высококачественной сегментации объектов без дополнительного обучения.
Преимущества обучения без тренировок
Традиционные подходы требуют большого количества размеченных данных, что затрудняет работу с новыми классами. В отличие от них, методы OVSS без обучения могут сегментировать объекты на основе новых текстовых подсказок, что делает их идеальными для реальных приложений, где трудно предсказать новые объекты. Эти методы не требуют дополнительной аннотации или сбора данных при изменении случаев использования, что делает их масштабируемыми для производственных решений.
Решение CASS: Контекст на уровне объектов для последовательной сегментации
CASS извлекает богатые знания о контексте объектов и совместно работает с текстовыми эмбеддингами CLIP. Основные идеи этого подхода заключаются в:
1. Дистилляция спектрального контекста объектов
CASS связывает механизмы внимания CLIP и VFM, сопоставляя их функциональность. Это позволяет передавать контекст объектов от VFM к CLIP, улучшая способность сегментации.
2. Приоритет присутствия объектов для семантической доработки
CASS использует способность CLIP к нулевому классифицированию для вычисления вероятности присутствия объектов, что улучшает точность предсказаний, сгруппировав аналогичные классы.
Эмпирические результаты
CASS прошла испытания на восьми бенчмарках, включая PASCAL VOC и COCO. Основные достижения включают:
- Среднее значение пересечения (mIoU): CASS превосходит многие методы, не требующие обучения.
- Точность пикселей (pAcc): CASS постоянно предсказывает правильные метки на уровне пикселей.
Выводы
Решение CASS представляет собой прорыв для открытой семантической сегментации, предоставляя высококачественную сегментацию, способную объединить разбросанные части объекта. Это особенно полезно в сферах, таких как робототехника и автономные транспортные средства.
Практические рекомендации по внедрению ИИ в бизнес
- Изучите, как технологии ИИ могут трансформировать ваши процессы.
- Определите ключевые показатели, чтобы убедиться, что инвестиции в ИИ приносят положительные результаты.
- Выбирайте инструменты, которые соответствуют вашим потребностям, и настраивайте их для достижения ваших целей.
- Начните с небольшого проекта, собирайте данные и постепенно расширяйте использование ИИ.
Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Подпишитесь на наш Telegram, чтобы быть в курсе последних новостей ИИ: https://t.me/itinai.