Itinai.com it development details code screens blured futuris ee00b4e7 f2cd 46ad 90ca 3140ca10c792 1
Itinai.com it development details code screens blured futuris ee00b4e7 f2cd 46ad 90ca 3140ca10c792 1

Программа оценки VLM от Salesforce AI Research: новый подход к оценке ответов на открытые запросы

Легче сразу спросить 💭

AI снижает операционные расходы на 20–40% 📊 за 6 месяцев. А что бы вы сделали с этими деньгами?

Опишите задачу — обсудим, как это можно реализовать у вас.

ИИ автоматизирует 70% рутинных задач 🤖 за 3 месяца. Какие процессы в вашем бизнесе скинуть роботу?
Персонализированные AI-кампании увеличивают клиентскую базу на 30% 📈. Как это работает?
AI-аналитика сокращает ошибки в прогнозах на 50% 📉. Расскажите подробнее!
 Salesforce AI Research Propose Programmatic VLM Evaluation (PROVE): A New Benchmarking Paradigm for Evaluating VLM Responses to Open-Ended Queries

«`html

Модели «Язык-Изображение» (VLMs)

Модели VLMs все чаще используются для генерации ответов на запросы о визуальном контенте. Однако они часто создают правдоподобные, но неверные ответы, известные как «галлюцинации». Это снижает доверие к таким системам, особенно в критически важных приложениях.

Проблема оценки ответов VLM

Оценка полезности и правдивости ответов VLM сложна, так как требует понимания визуального контента и проверки каждого утверждения. Традиционные методы оценки не справляются с этой задачей.

Новая методика PROVE

Исследователи из Salesforce AI Research предложили новую методику оценки VLM, названную PROVE. Она позволяет оценивать ответы VLM на открытые визуальные запросы.

Как работает PROVE

  • Используются детализированные графы сцен, созданные на основе подробных описаний изображений.
  • Применяется большая языковая модель (LLM) для генерации разнообразных пар вопросов и ответов.
  • Создаются программы для проверки каждой пары вопросов и ответов.

Это позволяет создать качественный набор данных из 10,5 тыс. сложных пар вопросов и ответов.

Оценка полезности и правдивости

Оценка включает сравнение графов сцен из ответов модели и истинных ответов, что позволяет измерять полезность и правдивость ответов.

Результаты оценки

Результаты показывают, что современные VLMs не всегда достигают хорошего баланса между полезностью и правдивостью. Модели, такие как GPT-4o и Phi-3.5-Vision, показали высокие оценки полезности, но не всегда правдивости.

Выводы

Методика PROVE представляет собой значительный шаг вперед в оценке ответов VLM. Она подчеркивает необходимость создания VLM, которые обеспечивают информативные и точные ответы.

Как использовать ИИ в вашем бизнесе

Если вы хотите развивать свою компанию с помощью ИИ, следуйте этим шагам:

  • Анализируйте, как ИИ может изменить вашу работу.
  • Определите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ.
  • Выбирайте подходящее решение из множества доступных вариантов ИИ.
  • Внедряйте ИИ постепенно, начиная с небольших проектов.

На основе полученных данных расширяйте автоматизацию.

Получите помощь

Если вам нужны советы по внедрению ИИ, пишите нам в Telegram. Следите за новостями о ИИ в нашем Telegram-канале или в Twitter.

Попробуйте AI Sales Bot

Этот AI ассистент в продажах помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.

Будущее уже здесь!

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab.

«`

Полезные ссылки:

Новости в сфере искусственного интеллекта