Первый обучаемый поисковик изображений с универсальным подходом: OmniGlue

Itinai.com it company office background blured chaos 50 v 04fd15e0 f9b2 4808 a5a4 d8a8191e4a22 1

«`html

Применение техник локального сопоставления изображений для обобщения моделей

Техники сопоставления локальных особенностей помогают определять мелкие визуальные сходства между двумя изображениями. Однако существующие методы не всегда способны обобщать результаты на различные области изображений. Это приводит к снижению производительности моделей на данных, не входящих в их обучающий набор. Для решения этой проблемы необходимо разработать архитектурные улучшения, способствующие обобщению методов сопоставления.

Практические решения

Прежде чем глубокое обучение стало популярным, многие исследования сосредотачивались на разработке обобщаемых моделей локальных особенностей, таких как SIFT, SURF и ORB. Кроме того, существуют методы Sparse Learnable Matching, такие как SuperGlue, использующие SuperPoint для обнаружения ключевых точек и механизм внимания для внутри- и межизображенческой передачи информации о ключевых точках. Еще один метод, Dense image matching, обучает дескрипторы изображений и модуль сопоставления для выполнения сопоставления пикселей на всем входном изображении.

Исследователи из Университета Техаса в Остине и Google Research предложили OmniGlue, первый обучаемый сопоставитель изображений, разработанный с учетом обобщения как основополагающего принципа. Для улучшения обобщения слоев сопоставления исследователи ввели две техники: модельное руководство и внимание к позиции ключевой точки. OmniGlue использует эти техники для лучшего обобщения в области данных, не входящих в распределение, сохраняя при этом производительность на исходной области. Для разработки предложенного метода используется модель DINO, которая хорошо проявляет себя в области разнообразных изображений.

В результате экспериментов исследователи сравнили OmniGlue с (a) SIFT и SuperPoint, предоставляющими доменно-независимые локальные визуальные дескрипторы для ключевых точек, а также генерацией результатов сопоставления с использованием ближайшего соседа + теста отношения (NN/ratio) и взаимного ближайшего соседа (MNN), (b) Sparse Matchers, такими как SuperGlue, использующие слои внимания для информации о ключевых точках внутри и между изображениями, и дескрипторы, полученные из SuperPoint, а также (c) Semi-Dense Matchers, такие как LoFTR и PDCNet, используемые для контекстуализации производительности разреженного сопоставления.

Результаты показывают, что OmniGlue превосходит базовый метод SuperGlue в области данных внутри области и также обладает лучшим обобщением. Кроме того, OmniGlue превосходит SuperGlue, показывая 12,3% относительный прирост на MegaDepth-500 и улучшение воспроизведения на 15% во время переноса с SH200 на Megadepth.

Заключение

Исследователи из Университета Техаса в Остине и Google Research представили OmniGlue, первый обучаемый сопоставитель изображений, разработанный с учетом обобщения как основополагающего принципа. OmniGlue обладает сильными возможностями обобщения, превосходя базовый метод SuperGlue. Кроме того, предложенный метод легко адаптируется к целевой области с небольшим количеством данных для настройки. Будущая работа включает исследование использования неаннотированных данных в целевых областях для улучшения обобщения.

Подробнее ознакомьтесь с исследованием. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему SubReddit с 42 тысячами подписчиков.

«`

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Сотрудничество

Бесплатный ИИ текст генератор

Спросить ИИ чат

Заказать разработку

27.05.2024

Владимир Дьячков PhD

Лучшие ИИ

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ

20.05.2025

ИИ онлайн решения

Сравнение Zebra Medical Vision и Quibim: Анализ и Рамки

Сравнение Zebra Medical Vision и Quibim: Мульти-болезни против мульти-органов — что приносит большую клиническую ценность? Цель сравнения В этом сравнении мы оценим Zebra Medical Vision и Quibim, две…

Compare
27.08.2025

Лучшие ИИ

Новая модель регрессии Google AI: предсказание производительности промышленных систем из текстовых данных

Введение В мире, где технологии развиваются с бешеной скоростью, важно оставаться на шаг впереди. Одним из самых захватывающих достижений в области искусственного интеллекта стало внедрение нового регрессионного языкового…
30.05.2025

Лучшие ИИ

DeepSeek R1-0528: Открытая AI-модель для математики и программирования с высокой производительностью на одном GPU

Выпуск DeepSeek R1-0528: Модель Искусственного Интеллекта для Логического Рассуждения с Повышенной Эффективностью в Математике и Кодировании Технические Улучшения Компания DeepSeek из Китая представила обновленную версию своей модели логического…
14.10.2025

Лучшие ИИ

«nanochat: Эффективный инструмент для обучения моделей ИИ за 100 долларов»

Введение в мир nanochat Представьте себе, что вы можете создать собственный чат-бот, способный вести осмысленные беседы, всего за несколько часов и с минимальными затратами. Это стало возможным благодаря…
08.02.2024

Лучшие ИИ

Новый метод сжатия больших языковых моделей: SliceGPT

Исследователи из ETH Zurich и Microsoft представили метод SliceGPT для эффективного сжатия больших языковых моделей путем разреженности. Этот подход позволяет значительно уменьшить размер моделей GPT, сохраняя их производительность.…

LLM, ИИ, Инновации
16.10.2023

ИИ агенты

ИИ-Агент для управления проектами : планирование и контроль сроков

Должность ИИ-Агент по Управлению Проектами: Планирование и Контроль Сроков Ключевые преимущества ИИ-Агент выступает надежным цифровым сотрудником, оптимизирующим процессы управления проектами. Сокращает сроки реализации проектов на 25% за счет…
02.06.2025

Лучшие ИИ

Оптимизация обучения с подкреплением для больших языковых моделей с использованием KL-дивергенции

Введение в Off-Policy Reinforcement Learning В мире технологий и автоматизации бизнеса офф-политика (Off-Policy) в обучении с подкреплением (Reinforcement Learning, RL) с использованием расхождения Кульбака-Лейблера (KL Divergence) открывает новые…
09.01.2024

Ai Sales

12 навыков продаж, которые сделают вас лучшими в 2024 году

На пути к успеху в продажах важно приобрести и совершенствовать разнообразные навыки. 12 необходимых навыков помогут вам стать настоящим профессионалом и выделяться среди конкурентов в 2024 году. Успех…

LLM, ИИ, Инновации, продажи

Первый обучаемый поисковик изображений с универсальным подходом: OmniGlue

Применение техник локального сопоставления изображений для обобщения моделей

Практические решения

Заключение

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

Монетизация AI в нише эзотерики

AI-монетизация для преподавателя по математике

Как зарабатывать на AI в нише психологии

AI для начинающего психолога без сайта

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Консультант по закупкам : оптимизация выбора поставщиков

ИИ-Оптимизатор складских запасов : прогнозирование потребностей и минимизация издержек

ИИ-Агент по управлению заявками : автоматизация обработки тикетов

ИИ-Консультант по персонализации CRM : сегментация и рекомендации

Как внедрить управление качеством по ISO 9001: ИИ предложит дорожную карту и документы

Как собрать материалы для встречи руководителя: ИИ составит список документов и структуру папки

Как внедрить OKR в отдел продаж: искусственный интеллект предложит цели, ключевые результаты и формулировки

Как удержать клиента на стадии размышлений: искусственный интеллект предложит email-сценарии с усилением оффера

Как рассчитать совокупный риск проекта: ИИ построит карту рисков и формулу расчетов

Как описать пользовательские истории по Agile: ИИ предложит шаблоны user stories и acceptance criteria

Лучший ИИ онлайн

Сравнение Zebra Medical Vision и Quibim: Анализ и Рамки

Новая модель регрессии Google AI: предсказание производительности промышленных систем из текстовых данных

DeepSeek R1-0528: Открытая AI-модель для математики и программирования с высокой производительностью на одном GPU

«nanochat: Эффективный инструмент для обучения моделей ИИ за 100 долларов»

Новый метод сжатия больших языковых моделей: SliceGPT

ИИ-Агент для управления проектами : планирование и контроль сроков

Оптимизация обучения с подкреплением для больших языковых моделей с использованием KL-дивергенции

12 навыков продаж, которые сделают вас лучшими в 2024 году

Новости

Реклама

Контакты

Вакансии

Политика конфиденциальности

Партнеры