Большой набор тестов для оценки мультимодельных больших языковых моделей (MLLMs) в текстовых сценариях

 SEED-Bench-2-Plus: An Extensive Benchmark Specifically Designed for Evaluating Multimodal Large Language Models (MLLMs) in Text-Rich Scenarios



Оценка многофункциональных моделей языка (MLLMs) в сценариях с текстовым контентом: SEED-Bench-2-Plus

Evaluating Multimodal Large Language Models (MLLMs) in text-rich scenarios is crucial, given their increasing versatility. However, current benchmarks mainly assess general visual comprehension, overlooking the nuanced challenges of text-rich content. MLLMs like GPT-4V, Gemini-Pro-Vision, and Claude-3-Opus showcase impressive capabilities but lack comprehensive evaluation in text-rich contexts. Understanding text within images requires interpreting textual and visual cues, a challenge yet to be rigorously addressed.

SEED-Bench-2-Plus для оценки понимания MLLMs текстового визуального контента

SEED-Bench-2-Plus, разработанный командой исследователей из Tencent AI Lab, ARC Lab, Tencent PCG и Китайского университета в Шэньчжэне, является специализированным бенчмарком для оценки понимания MLLMs текстового визуального контента. Он состоит из 2,3 тыс. тщательно подобранных вариантов выбора, охватывающих три широких категории: диаграммы, карты и веб, охватывая разнообразные реальные сценарии. Человеческие аннотаторы обеспечивают точность, и оценка включает 34 ведущих MLLMs, таких как GPT-4V, Gemini-Pro-Vision и Claude-3-Opus.

Результаты и применение SEED-Bench-2-Plus

SEED-Bench-2-Plus представляет собой комплексный бенчмарк, включающий 2 тыс. вариантов выбора, охватывающих три основные категории: диаграммы, карты и веб. Каждая категория включает в себя различные виды данных, всего 63. Набор данных тщательно подобран, включая диаграммы, карты и снимки веб-страниц, богатые текстовой информацией. Метод генерации вопросов и их последующее уточнение осуществляется с привлечением GPT-4V и человеческих аннотаторов. Оценка проводится с использованием стратегии ранжирования ответов, оценивая производительность MLLMs на основе вероятности разработки правильного ответа для каждого варианта выбора.

Заключение: использование SEED-Bench-2-Plus для развития компании с помощью ИИ

SEED-Bench-2-Plus – это комплексный бенчмарк для оценки MLLMs в сценариях с текстовым контентом. Он предлагает обширную платформу оценки, охватывающую 31 открытую версию и три закрытых MLLMs. Используя доступные данные и учебный код, он предоставляет ценные инсайты для направления будущих исследований в этой области.

Применение ИИ в вашем бизнесе

Если вы хотите улучшить свой бизнес с помощью ИИ, обращайтесь к SEED-Bench-2-Plus и изучите примеры применения автоматизации в различных сферах. Постепенно внедряйте решения ИИ, анализируйте результаты и улучшайте эффективность в процессах вашего бизнеса.

Подписывайтесь на наши обновления

Следите за нашими новостями о ИИ и присоединяйтесь к нам в социальных сетях, чтобы быть в курсе последних технологических достижений.


Полезные ссылки: