VisOnlyQA: Новый набор данных для оценки визуального восприятия больших языковых моделей с визуальными возможностями

 VisOnlyQA: A New Dataset for Evaluating the Visual Perception of LVLMs (Large Vision Language Models)

“`html

Новый набор данных VisOnlyQA для оценки визуального восприятия LVLM

Что такое LVLM?

Большие языковые модели с визуальным восприятием (LVLM) достигли значительных успехов в сложных многомодальных задачах. Однако ошибки в визуальном восприятии все еще влияют на их способность понимать детали изображений.

Проблемы существующих наборов данных

Популярные наборы данных для оценки LVLM, такие как MMMU и MathVista, не фокусируются на визуальном восприятии и не оценивают способности моделей в этой области. Они не учитывают тонкие детали, необходимые для правильного анализа.

Решение: VisOnlyQA

Исследователи из Университета Пенсильвании создали VisOnlyQA, набор данных, который направлен на оценку визуального восприятия LVLM, задавая вопросы о геометрической и числовой информации в научных изображениях. Он ориентирован на тонкие визуальные детали и объективную оценку.

Как работает VisOnlyQA?

Набор данных включает три раздела: Eval-Real, Eval-Synthetic и Train, с высококачественной аннотацией. Вопросы формулируются без необходимости в специализированных знаниях. Это позволяет более точно оценивать способность моделей к визуальному восприятию.

Результаты исследования

В исследовании оценивались 20 открытых и закрытых LVLM. Результаты показали, что модели работают значительно хуже людей, с точностью около 54.2% для реальных данных и 42.4% для синтетических, что подтверждает необходимость улучшения визуального восприятия в моделях.

Выводы и будущее исследований

Набор данных VisOnlyQA дал возможность выявить слабые места LVLM в области визуального восприятия. Это открывает новые возможности для улучшения архитектуры моделей и данных для обучения.

Практические рекомендации для бизнеса

Чтобы ваша компания смогла расти с помощью ИИ, воспользуйтесь подходами, предложенными в VisOnlyQA:

  • Анализируйте, как ИИ может изменить вашу работу.
  • Ищите возможности для автоматизации.
  • Определяйте KPI для улучшения процессов с помощью ИИ.
  • Постепенно внедряйте ИИ, начиная с малых проектов.
  • Используйте полученные данные для расширения автоматизации.

Контакты и ресурсы

Если вам нужны советы по внедрению ИИ, пишите нам в Telegram. Следите за новостями о ИИ в нашем Телеграм-канале или Twitter.

Попробуйте AI Sales Bot для помощи в продажах. Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab. Будущее уже здесь!

“`

Полезные ссылки: