✅ Оценка возможностей моделей машинного обучения в долгосрочном визуальном поиске и рассуждениях: новый бенчмарк "Visual Haystacks"

«`html

Решение проблемы множественного изображения в вопросно-ответной системе

Одной из важнейших задач в области визуальной вопросно-ответной системы (VQA) является задача множественного визуального вопросно-ответного взаимодействия (MIQA). Это задача генерации соответствующих и обоснованных ответов на естественно-языковые запросы на основе большого набора изображений. Существующие модели больших мультимодальных изображений (LMMs) отлично справляются с ответами на вопросы по одному изображению, но сталкиваются с существенными трудностями, когда запросы охватывают большие коллекции изображений. Решение этой проблемы критически важно для реальных применений, таких как поиск в больших фотоальбомах, поиск конкретной информации в интернете или мониторинг изменений окружающей среды с помощью спутниковых изображений.

Проблемы существующих методов

На текущий момент методы визуального вопросно-ответного анализа в основном сосредоточены на анализе одного изображения, что ограничивает их ценность для более сложных запросов, связанных с большими наборами изображений. Модели типа Gemini 1.5-pro и GPT-4V могут обрабатывать несколько изображений, но сталкиваются с затруднениями в эффективном поиске и интеграции соответствующих изображений из больших наборов данных. Эти методы неэффективны с вычислительной точки зрения и демонстрируют ухудшение производительности при увеличении объема и изменчивости изображений. Они также страдают от позиционного смещения и затрудняют интеграцию визуальной информации по множеству несвязанных изображений, что приводит к снижению точности и применимости в масштабных задачах.

Новое решение — MIRAGE

Для преодоления этих ограничений исследователи из Университета Калифорнии предлагают MIRAGE (Multi-Image Retrieval Augmented Generation) — новую структуру, специально адаптированную для MIQA. MIRAGE расширяет модель LLaVA путем интеграции нескольких инновационных компонентов: сжатый кодировщик изображений, фильтр релевантности на основе запросов и обучение с использованием целевых синтетических и реальных данных MIQA. Эти инновации позволяют MIRAGE эффективно обрабатывать большие контексты изображений и повышать точность в решении задач MIQA. Этот подход представляет собой значительный вклад в область, предлагая улучшение точности до 11% по сравнению с закрытыми моделями, такими как GPT-4o на бенчмарке Visual Haystacks (VHs) и демонстрируя улучшение эффективности вплоть до 3.4 раза по сравнению с традиционными текстово-ориентированными подходами.

Основные характеристики MIRAGE

MIRAGE использует механизм сжатого кодирования изображений с помощью Q-former, чтобы сократить количество токенов на изображение с 576 до 32. Это позволяет модели обрабатывать больше изображений в рамках одного контекста. Фильтр релевантности на основе запросов представляет собой однослойную многослойную перцептронную нейронную сеть, которая предсказывает релевантность изображений для запроса, после чего используется для выбора релевантных изображений для детального анализа. Процесс обучения включает в себя как существующие наборы данных MIQA, так и синтетические данные, полученные из наборов данных вопросно-ответной системы одного изображения, что повышает устойчивость и производительность модели в различных сценариях MIQA. Набор данных VHs, используемый для тестирования, содержит 880 пар вопрос-ответ для одного иглы и 1000 пар для множественных игл, обеспечивая строгую оценку моделей MIQA.

Результаты и преимущества MIRAGE

Результаты оценки показывают, что MIRAGE заметно превосходит существующие модели на бенчмарке Visual Haystacks, превосходя закрытые модели, такие как GPT-4o, на 11% по точности для вопросов с одной иглой и демонстрируя заметное улучшение эффективности. MIRAGE поддерживает более высокие уровни производительности с увеличением количества изображений, демонстрируя свою устойчивость в обработке обширных визуальных контекстов. Он достиг значительных улучшений как в точности, так и в эффективности обработки по сравнению с традиционными текстово-ориентированными многоэтапными подходами.

Завершение и приглашение

Исследователи представляют значительный прогресс в области MIQA с помощью рамки MIRAGE. Важная проблема эффективного поиска и интеграции соответствующих изображений из больших наборов данных для ответа на сложные визуальные запросы решена. Инновационные компоненты MIRAGE и надежные методы обучения приводят к превосходной производительности и эффективности по сравнению с существующими моделями, открывая путь для более эффективного применения искусственного интеллекта в реальных сценариях, связанных с обширными визуальными данными.

Подробнее о работе смотрите на ссылке на статью, проекте, GitHub и деталях. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится и наш новостной бюллетень.

Не забудьте присоединиться к нашему сообществу 47 тыс. пользователей в подразделе ML на Reddit.

Также смотрите предстоящие вебинары по ИИ здесь.

Это был перевод статьи The First “Visual-Centric” Needle-In-A-Haystack (NIAH) Benchmark to Assess LMMs’ Capability in Long-Context Visual Retrieval and Reasoning на MarkTechPost.

«`

Оценка возможностей моделей машинного обучения в долгосрочном визуальном поиске и рассуждениях: новый бенчмарк «Visual Haystacks»

Решение проблемы множественного изображения в вопросно-ответной системе

Проблемы существующих методов

Новое решение — MIRAGE

Основные характеристики MIRAGE

Результаты и преимущества MIRAGE

Завершение и приглашение

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

Инфлюенсер и AI — монетизация личного бренда

AI для риелторов — как увеличить заявки без менеджера

Использование AI для специалистов по питанию

Монетизация Telegram-канала с цитатами и мотивацией

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Аналитик социальных сетей : генерация стратегий контента

ИИ-Агент по автоматизации юридических процессов : подготовка шаблонных документов

ИИ-Агент по автоматизации отчетности : генерация финансовых и операционных отчетов

ИИ-Агент для анализа видеоконтента : извлечение данных из записей

Как ассистенту вести электронную папку поручений: ИИ предложит таблицу с напоминаниями и сроками

Что писать в follow-up после звонка: искусственный интеллект создаст текст письма с повторным касанием

Как описать пользовательские истории по Agile: ИИ предложит шаблоны user stories и acceptance criteria

Как UX-копирайтеру переписать текст ошибки 404, чтобы пользователь не ушёл: ИИ предложит 5 вариантов текста

Как продавать решения, а не продукты: искусственный интеллект перепишет ваш питч с фокусом на ценность

Как разработать тональность бренда (tone of voice): ИИ предложит описание характера, речи и фраз

Лучший ИИ онлайн

Исследователи из Imperial College и GSK AI представили RAmBLA: фреймворк машинного обучения для оценки надежности LLMs в биомедицинской сфере.

Исследователи представили M3DocRAG: новый многофункциональный фреймворк для работы с документами.

Ученые из Национального университета Сингапура представляют MambaOut: оптимизация визуальных моделей для улучшения точности

Быстрое развертывание CSS-задач: эффективная система для интеграции LLM с минимальной человеческой разметкой в условиях ограниченных ресурсов.

Улучшение моделирования длинных последовательностей: увеличение показателя на LongBench на 3.2 пункта и на L-Eval на 1.6 пункта

Исследование AI: улучшение моделей для обработки длинных видео

Знакомьтесь с CircleMind: стартап в области ИИ, который меняет генерацию информации с помощью графов знаний и PageRank.

Карта сайта

Подписка

Отказ от ответственности

Политика конфиденциальности

Условия использования

Партнеры