Введение в VLM2VEC и MMEB
Доклад от Salesforce представляет VLM2VEC и MMEB: контрастная структура и бенчмарк для универсальных мультимодальных эмбеддингов.
Что такое мультимодальные эмбеддинги?
Мультимодальные эмбеддинги объединяют визуальные и текстовые данные в едином представлении, позволяя системам понимать и связывать изображения и язык. Эти эмбеддинги поддерживают различные задачи, такие как визуальное ответ на вопросы, поиск, классификация и привязка. Эта технология особенно важна для ИИ-моделей, которые интерпретируют реальный контент через визуальные и лексические призмы, например, для анализа документов, цифровых помощников или визуальных поисковых систем.
Проблемы существующих моделей
Основной проблемой является неспособность текущих моделей эффективно обобщать на различных задачах и модальностях. Большинство моделей обучаются для очень специфических задач и показывают плохие результаты при применении к незнакомым данным. Без единого и широкого бенчмарка оценка производительности по мультимодальным задачам становится непоследовательной и фрагментированной, что ограничивает возможности моделей в реальных приложениях.
Решение: VLM2VEC и MMEB
В сотрудничестве с Университетом Ватерлоо был представлен новый модель VLM2VEC и обширный бенчмарк MMEB. MMEB включает 36 наборов данных по четырем основным задачам: классификация, визуальный ответ на вопросы, поиск и визуальная привязка. VLM2VEC позволяет преобразовать любую модель визуального языка в модель эмбеддингов с использованием контрастного обучения.
Технические детали
Для создания VLM2VEC команда использовала модели-основы, такие как Phi-3.5-V и LLaVA-1.6. Процесс начинается с формирования запросов и целей на основе специфических инструкций, которые обрабатываются через модель визуального языка для генерации эмбеддингов. Контрастное обучение применяется с использованием функции потерь InfoNCE и косинусного сходства.
Результаты производительности
Лучший вариант VLM2VEC с использованием LLaVA-1.6 достиг 62.9% по Precision@1 на всех 36 наборах данных MMEB. В нулевых тестах на 16 наборах данных вне распределения он сохранил 57.1%. Это демонстрирует значительное улучшение по сравнению с предыдущими моделями.
Практические рекомендации для бизнеса
Рассмотрите возможность автоматизации процессов и выявления моментов взаимодействия с клиентами, где ИИ может добавить максимальную ценность.
Определите важные KPI, чтобы убедиться, что ваши инвестиции в ИИ приносят положительный эффект.
Выбирайте инструменты, которые соответствуют вашим потребностям и позволяют настраивать их под ваши цели.
Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.
Пример решения на основе ИИ
Посмотрите на практический пример решения с использованием ИИ: продажный бот, который автоматизирует взаимодействие с клиентами круглосуточно и управляет взаимодействиями на всех этапах клиентского пути.
Связь с нами
Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram.