Программа оценки VLM от Salesforce AI Research: новый подход к оценке ответов на открытые запросы

 Salesforce AI Research Propose Programmatic VLM Evaluation (PROVE): A New Benchmarking Paradigm for Evaluating VLM Responses to Open-Ended Queries

“`html

Модели «Язык-Изображение» (VLMs)

Модели VLMs все чаще используются для генерации ответов на запросы о визуальном контенте. Однако они часто создают правдоподобные, но неверные ответы, известные как «галлюцинации». Это снижает доверие к таким системам, особенно в критически важных приложениях.

Проблема оценки ответов VLM

Оценка полезности и правдивости ответов VLM сложна, так как требует понимания визуального контента и проверки каждого утверждения. Традиционные методы оценки не справляются с этой задачей.

Новая методика PROVE

Исследователи из Salesforce AI Research предложили новую методику оценки VLM, названную PROVE. Она позволяет оценивать ответы VLM на открытые визуальные запросы.

Как работает PROVE

  • Используются детализированные графы сцен, созданные на основе подробных описаний изображений.
  • Применяется большая языковая модель (LLM) для генерации разнообразных пар вопросов и ответов.
  • Создаются программы для проверки каждой пары вопросов и ответов.

Это позволяет создать качественный набор данных из 10,5 тыс. сложных пар вопросов и ответов.

Оценка полезности и правдивости

Оценка включает сравнение графов сцен из ответов модели и истинных ответов, что позволяет измерять полезность и правдивость ответов.

Результаты оценки

Результаты показывают, что современные VLMs не всегда достигают хорошего баланса между полезностью и правдивостью. Модели, такие как GPT-4o и Phi-3.5-Vision, показали высокие оценки полезности, но не всегда правдивости.

Выводы

Методика PROVE представляет собой значительный шаг вперед в оценке ответов VLM. Она подчеркивает необходимость создания VLM, которые обеспечивают информативные и точные ответы.

Как использовать ИИ в вашем бизнесе

Если вы хотите развивать свою компанию с помощью ИИ, следуйте этим шагам:

  • Анализируйте, как ИИ может изменить вашу работу.
  • Определите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ.
  • Выбирайте подходящее решение из множества доступных вариантов ИИ.
  • Внедряйте ИИ постепенно, начиная с небольших проектов.

На основе полученных данных расширяйте автоматизацию.

Получите помощь

Если вам нужны советы по внедрению ИИ, пишите нам в Telegram. Следите за новостями о ИИ в нашем Telegram-канале или в Twitter.

Попробуйте AI Sales Bot

Этот AI ассистент в продажах помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.

Будущее уже здесь!

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab.

“`

Полезные ссылки: