ИИ онлайн • itinai.ru

Сравнение моделей для анализа изображений: VSSM, Vision Transformers и CNN

Получить консультацию бесплатно

Itinai.com it company office background blured chaos 50 v 14a9a2fa 3bf8 4cd1 b2f6 5c758d82bf3e 0

«`html

Глубокие модели обучения, такие как сверточные нейронные сети (CNN) и Vision Transformers, достигли большого успеха во многих визуальных задачах, таких как классификация изображений, обнаружение объектов и семантическая сегментация. Однако их способность обрабатывать различные изменения в данных по-прежнему вызывает большую озабоченность, особенно при использовании в приложениях, требующих повышенной безопасности. Многие исследования оценили устойчивость CNN и Transformers к общим искажениям, изменениям домена, потере информации и атакам. Это показывает, что конструкция модели влияет на ее способность управлять этими проблемами, и устойчивость варьируется в зависимости от различных архитектур. Основной недостаток трансформеров заключается в квадратичном вычислительном масштабировании с размером входных данных, что делает их затратными для выполнения сложных задач.

Робастность моделей глубокого обучения и модели пространства состояний

Робастность глубоких моделей обучения (RDLM) сосредотачивается на том, насколько хорошо традиционно обученная модель может поддерживать высокую производительность при столкновении с естественными и адверсными изменениями в распределении данных. Глубокие модели обучения часто сталкиваются с искажениями данных, такими как шум, размытие, артефакты сжатия и преднамеренные нарушения, созданные для обмана модели в реальных ситуациях. Эти проблемы могут значительно ухудшить их производительность, поэтому для обеспечения надежности и устойчивости этих моделей важно оценить их производительность в этих сложных условиях. С другой стороны, модели пространства состояний (SSM) — это многообещающий подход для моделирования последовательных данных в глубоком обучении. Эти модели преобразуют одномерную последовательность с использованием неявного скрытого состояния.

Анализ производительности VSSMs, Vision Transformers и CNNs

Исследователи из MBZUAI ОАЭ, Университета Linkoping и ANU Австралии представили всесторонний анализ производительности VSSMs, Vision Transformers и CNNs. Этот анализ способен решать различные задачи классификации, обнаружения и сегментации, а также предоставляет ценные идеи относительно их устойчивости и пригодности для реальных приложений. Оценка, проведенная исследователями, разделена на три части, каждая из которых сосредотачивается на важной области устойчивости модели. Первая часть — Эффекты заслонения и потери информации, где оценивается устойчивость VSSMs к потере информации вдоль направлений сканирования и заслонениям. Другие две части — Общие искажения и адверсные атаки.

Ключевые выводы

В первой части было выяснено, что модели ConvNext и VSSM лучше справляются с последовательной потерей информации вдоль направления сканирования, чем модели ViT и Swin. В ситуациях, включающих потерю фрагментов, VSSM показывают наивысшую устойчивость, хотя модели Swin проявляют себя лучше при экстремальной потере информации.

Модели VSSM испытывают наименьшее среднее снижение производительности по сравнению с моделями Swin и ConvNext при глобальных искажениях. Для мелкозернистых искажений модели VSSM превосходят все вариации трансформеров и соответствуют им.

При адверсных атаках меньшие модели VSSM проявляют большую устойчивость к атакам в белом ящике по сравнению с их аналогами Swin Transformer. Модели VSSM сохраняют устойчивость более 90% к сильным низкочастотным искажениям, но их производительность быстро падает при атаках высокой частоты.

В заключение, исследователи тщательно оценили устойчивость моделей Vision State-Space (VSSMs) к различным естественным и адверсным воздействиям, показав их преимущества и недостатки по сравнению с трансформерами и CNNs. Эксперименты раскрывают возможности и ограничения VSSMs в обработке заслонений, общих искажений и адверсных атак, а также их способность адаптироваться к изменениям в составе объекта и фона в сложных визуальных сценах. Это исследование будет руководить будущими исследованиями по улучшению надежности и эффективности систем визуального восприятия в реальных ситуациях.

Проверьте статью и GitHub. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу более 45 тыс. участников в подразделе ML на Reddit.

The post Comprehensive Analysis of The Performance of Vision State Space Models (VSSMs), Vision Transformers, and Convolutional Neural Networks (CNNs) appeared first on MarkTechPost.
«`

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Сотрудничество

Бесплатный ИИ текст генератор

Спросить ИИ чат

Заказать разработку

01.07.2024

Владимир Дьячков PhD

Лучшие ИИ

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ

Запустите свой ИИ проект бесплатно

Акселератор itinai.ru ИИ-аналитик оценит ваш кейс и предложит план запуска

ИИ-агенты искусственный интеллект онлайн для бизнеса

Искусственный интеллект онлайн бесплатно в помощь бизнесу

Лучший ИИ онлайн

09.05.2025

Лучшие ИИ

OpenAI представила обучение с подкреплением (RFT) для оптимизации моделей o4-mini

Введение в Рефинансирование с Подкреплением (RFT) OpenAI представила Рефинансирование с Подкреплением (RFT) для своей модели рассуждений o4-mini, что открывает новые возможности для настройки базовых моделей под специализированные задачи.…
25.02.2025

Лучшие ИИ

Создание инструмента для анализа финансовых данных с использованием Python: пошаговое руководство

«`html В этом руководстве мы покажем вам, как создать продвинутый инструмент отчетности по финансовым данным на Google Colab, комбинируя несколько библиотек Python. Вы научитесь собирать актуальные финансовые данные…

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
08.11.2024

Лучшие ИИ

WEBRL: Саморазвивающаяся онлайн-программа обучения для тренировки высокоэффективных веб-агентов с открытыми LLM.

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
03.04.2024

Лучшие ИИ

DALL·E изображения теперь можно редактировать непосредственно в чате GPT на веб- и мобильных платформах.

AI tools, AI Новости, Innovation, LLM, ИИ
21.05.2025

Бесплатный ИИ

Как описать нефункциональные требования: ИИ подберет формулировки по категориям качества

Как пользоваться чатботом для создания нефункциональных требований Чатбот — ваш личный помощник в автоматизации подготовки технических заданий. Просто введите тип системы (например, «мобильное приложение для интернет-банкинга») и получите…

бизнес-аналитик
05.06.2024

Лучшие ИИ

Инновационный подход искусственного интеллекта к разблокировке LLM с использованием визуальных подсказок

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
19.01.2025

Лучшие ИИ

Исследователи Университета Пурдью представили ETA: двухфазную AI-систему для повышения безопасности в моделях визуального восприятия и языка во время работы.

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ
17.11.2024

Лучшие ИИ

NeuralDEM: Новая высокопроизводительная симуляция крупных частиц с помощью многогранных нейронных операторов

AI Product, AI Исследования, AI Новости, AI Продажи, AI сотрудники, NLP, ИИ