Новая модель VLM2VEC и бенчмарк MMEB: универсальные мультимодальные эмбеддинги для бизнеса

Itinai.com two developers coding side by side in a minimalist 9e46852c 56ad 43df b8ce 5a8451c13b63 2

Введение в VLM2VEC и MMEB

Доклад от Salesforce представляет VLM2VEC и MMEB: контрастная структура и бенчмарк для универсальных мультимодальных эмбеддингов.

Что такое мультимодальные эмбеддинги?

Мультимодальные эмбеддинги объединяют визуальные и текстовые данные в едином представлении, позволяя системам понимать и связывать изображения и язык. Эти эмбеддинги поддерживают различные задачи, такие как визуальное ответ на вопросы, поиск, классификация и привязка. Эта технология особенно важна для ИИ-моделей, которые интерпретируют реальный контент через визуальные и лексические призмы, например, для анализа документов, цифровых помощников или визуальных поисковых систем.

Проблемы существующих моделей

Основной проблемой является неспособность текущих моделей эффективно обобщать на различных задачах и модальностях. Большинство моделей обучаются для очень специфических задач и показывают плохие результаты при применении к незнакомым данным. Без единого и широкого бенчмарка оценка производительности по мультимодальным задачам становится непоследовательной и фрагментированной, что ограничивает возможности моделей в реальных приложениях.

Решение: VLM2VEC и MMEB

В сотрудничестве с Университетом Ватерлоо был представлен новый модель VLM2VEC и обширный бенчмарк MMEB. MMEB включает 36 наборов данных по четырем основным задачам: классификация, визуальный ответ на вопросы, поиск и визуальная привязка. VLM2VEC позволяет преобразовать любую модель визуального языка в модель эмбеддингов с использованием контрастного обучения.

Технические детали

Для создания VLM2VEC команда использовала модели-основы, такие как Phi-3.5-V и LLaVA-1.6. Процесс начинается с формирования запросов и целей на основе специфических инструкций, которые обрабатываются через модель визуального языка для генерации эмбеддингов. Контрастное обучение применяется с использованием функции потерь InfoNCE и косинусного сходства.

Результаты производительности

Лучший вариант VLM2VEC с использованием LLaVA-1.6 достиг 62.9% по Precision@1 на всех 36 наборах данных MMEB. В нулевых тестах на 16 наборах данных вне распределения он сохранил 57.1%. Это демонстрирует значительное улучшение по сравнению с предыдущими моделями.

Практические рекомендации для бизнеса

Рассмотрите возможность автоматизации процессов и выявления моментов взаимодействия с клиентами, где ИИ может добавить максимальную ценность.

Определите важные KPI, чтобы убедиться, что ваши инвестиции в ИИ приносят положительный эффект.

Выбирайте инструменты, которые соответствуют вашим потребностям и позволяют настраивать их под ваши цели.

Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.

Пример решения на основе ИИ

Посмотрите на практический пример решения с использованием ИИ: продажный бот, который автоматизирует взаимодействие с клиентами круглосуточно и управляет взаимодействиями на всех этапах клиентского пути.

AI Technology

Связь с нами

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram.

Сотрудничество

Бесплатный ИИ текст генератор

Спросить ИИ чат

Заказать разработку

11.04.2025