Модель ChartGemma: обученная на данных из реальных графиков различных типов

 ChartGemma: A Multimodal Model Instruction-Tuned on Data Generated Directly from a Diverse Range of Real-World Chart Images

“`html

Преимущества использования ChartGemma: Мульти-модель, настроенная на данных, сгенерированных непосредственно из разнообразных реальных изображений графиков

Использование графиков необходимо в различных областях, однако существующие модели для их понимания имеют определенные ограничения. Часто они основаны на таблицах данных, вместо визуальных шаблонов, и используют слабо выровненные модели видение-язык, что ограничивает их эффективность при работе с сложными графиками. Хотя языково-улучшенные модели видения в целом хорошо справляются с общими задачами, им требуется помощь при анализе специализированных графиков. Исследователи пытались настраивать эти модели для лучшего понимания графиков, но проблемы с качеством данных и выравниванием моделей по-прежнему существуют. Необходим простой, улучшенный подход для разработки надежной основной модели для эффективного понимания и рассуждения о графиках в различных реальных сценариях.

Практические решения и ценность ChartGemma

Команда исследователей из Университета Йорка, Института искусственного интеллекта Квебека MILA, Исследовательского центра Salesforce и Университета Наньянг разработала ChartGemma, продвинутую модель понимания и рассуждения о графиках. В отличие от существующих моделей, ChartGemma обучается на данных, сгенерированных непосредственно из изображений графиков, захватывая детальную визуальную информацию. Построенная на основе основной модели PaliGemma, она является более компактной и эффективной, чем другие модели. ChartGemma достигает передовых результатов в суммировании графиков, ответах на вопросы и проверке фактов на пяти бенчмарках. Качественные исследования показывают, что она генерирует реалистичные и точные сводки, что делает ее высокоэффективной для анализа реальных графиков.

Обучение представлению графиков эволюционировало от моделей с настройкой на язык или видение-язык к заранее обученным моделям с конкретными целями, связанными с графиками. Работа по настройке заранее обученных моделей видение-язык (VLM) была проведена для улучшения их применимости к анализу графиков, однако эти методы полагаются на базовые таблицы данных и слабо выровненные VLM. Бенчмарки для моделирования графиков варьируются от ответов на вопросы до открытых задач, таких как генерация объяснений и суммирование. Настройка инструкций обобщила языковые модели на различные функции и теперь является стандартной для мультимодальных VLM. Однако специфическая для области настройка на инструкции для графиков с использованием таблиц данных не улавливает сложность реальных графиков, что ограничивает эффективность модели.

ChartGemma использует архитектуру PaliGemma, включающую видео-кодер SigLIP и языковую модель Gemma-2B. Видео-кодер обрабатывает изображения размером 448х448 пикселей, преобразуя их в визуальные токены, отображенные во встроенное пространство языковой модели. Затем эти токены комбинируются с встраиваниями текста и обрабатываются моделью Gemma-2B, которая использует полное внимание для входных токенов и причинную маскировку для выходных токенов для улучшения контекстного понимания. В отличие от существующих мультимодальных VLLM для графиков, требующих двухэтапного обучения, ChartGemma использует одноэтапный метод прямой настройки данных для настройки инструкций. Это облегчается обширным предварительным обучением PaliGemma на разнообразных парах изображений и текста, позволяя лучше адаптироваться и обобщаться.

ChartGemma сравнивается с различными открытыми специализированными моделями для графиков, VLLM с настройкой на данные графиков и передовыми мультимодальными LLMs с закрытым исходным кодом. Ее оценивают на пяти бенчмарках, оценивающих возможности представления и рассуждения о графиках: ChartQA, ChartFC, ChartCheck, OpenCQA и Chart2Text, а также на ручном наборе из 100 невидимых графиков. Метрики производительности включают точность с учетом ошибок, точность и оценку информативности и фактической корректности GPT-4. ChartGemma превосходит другие модели в большинстве задач, демонстрируя превосходное обобщение, особенно в понимании реалистичных инструкций и сложных графиков, несмотря на ее относительно небольшой размер.

ChartGemma, мульти-модель с настройкой на инструкции по данным, сгенерированным из разнообразных реальных изображений графиков с использованием продвинутой архитектуры основной модели, решает основные недостатки текущих моделей. В отличие от существующих методов, использующих данные настройки по инструкциям из базовых таблиц и слабо выровненные основы, ChartGemma использует фактические изображения графиков, улучшая адаптированность и обобщаемость. Этот подход значительно улучшает производительность, производя более реалистичные, информативные и фактически правильные выводы при относительно небольшом объеме параметров. В дальнейшей работе включается создание более разнообразного датасета настройки инструкций и предложение обобщенного бенчмарка для оценки сложных визуальных элементов на графиках с соответствующими метриками.

Посмотрите статью. Весь кредит за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе LinkedIn.

Если вам нравится наша работа, вам понравится наш бюллетень.

Не забудьте присоединиться к нашему сообществу 46 тыс. подписчиков на Reddit.

Пост ChartGemma: Мульти-модель, настроенная на данных, сгенерированных непосредственно из разнообразных реальных изображений графиков появился сначала на MarkTechPost.

Использование искусственного интеллекта для вашего бизнеса

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте ChartGemma: Мульти-модель, настроенная на данных, сгенерированных непосредственно из разнообразных реальных изображений графиков.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизацию: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot https://itinai.ru/aisales Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru будущее уже здесь!

“`

Полезные ссылки: