✅ Улучшение понимания документов с помощью DocOwl2: новая архитектура высокого разрешения сжатия

«`html

Повышение понимания документов с помощью DocOwl2: новая архитектура сжатия высокого разрешения

Понимание многостраничных документов и новостных видеороликов — обычная задача в повседневной жизни человека. Для решения таких сценариев мультимодальные модели большого языка (MLLMs) должны быть оснащены способностью понимать несколько изображений с богатой визуально-ориентированной текстовой информацией. Однако понимание изображений документов более сложно, чем естественных изображений, поскольку требуется более тонкое восприятие для распознавания всего текста. Существующие подходы либо добавляют высокоразрешающий кодировщик, либо обрезают высокоразрешающие изображения на низкоразрешающие подизображения, оба из которых имеют ограничения.

Практические решения и ценность

Исследователи из Alibaba Group и Renmin University of China предложили надежную архитектуру сжатия под названием High-resolution DocCompressor. Этот метод использует визуальные особенности глобального низкоразрешающего изображения в качестве руководства для сжатия, поскольку глобальная карта особенностей может эффективно захватывать общую информацию о макете документа. Вместо того чтобы обращаться ко всем высокоразрешающим особенностям, High-resolution DocCompressor собирает группу высокоразрешающих особенностей с идентичными относительными положениями в исходном изображении в качестве объектов сжатия для каждого запроса с глобальной карты особенностей. Этот метод, ориентированный на макет, помогает лучше суммировать текстовую информацию в определенной области макета.

Кроме того, исследователи утверждают, что сжатие визуальных особенностей после модуля отображения в текст мультимодальной большой языковой модели может лучше сохранять текстовую семантику на изображениях документов, поскольку это аналогично суммированию текстов в обработке естественного языка.

Модель DocOwl2 использует модуль адаптивного обрезания формы и низкоразрешающий визионный кодировщик для кодирования высокоразрешающих изображений документов. Модуль адаптивного обрезания формы разбивает исходное изображение на несколько низкоразрешающих подизображений, а низкоразрешающий визионный кодировщик используется для кодирования как подизображений, так и глобального изображения. Модель затем использует модуль отображения в текст под названием H-Reducer для ансамблирования горизонтальных визуальных особенностей и выравнивания размерности визионных особенностей с большой языковой моделью. Кроме того, DocOwl2 включает высокоразрешающий сжиматель, который является ключевым компонентом High-resolution DocCompressor. Этот сжиматель использует визуальные особенности глобального низкоразрешающего изображения в качестве запроса и собирает группу высокоразрешающих особенностей с идентичными относительными положениями в исходном изображении в качестве объектов сжатия для каждого запроса. Этот метод, ориентированный на макет, помогает лучше суммировать текстовую информацию в определенной области макета. Наконец, сжатые визуальные токены нескольких изображений или страниц конкатенируются с текстовыми инструкциями и подаются на вход большой языковой модели для мультимодального понимания.

Исследователи сравнили модель DocOwl2 с передовыми мультимодальными большими языковыми моделями на 10 бенчмарках понимания одиночных изображений документов, 2 бенчмарках понимания многостраничных документов и 1 бенчмарке понимания видео с богатым текстом. Они рассматривали как производительность в вопросно-ответной системе (измеряемая по ANLS), так и первую задержку токена (в секундах), чтобы оценить эффективность своей модели.

Результаты показывают, что, хотя модели, специально донастроенные на каждом конечном наборе данных, показали себя хорошо, мультимодальные LLMs продемонстрировали потенциал для обобщенного понимания документов без OCR. По сравнению с другими мультимодальными LLMs с менее чем 1 000 визуальными токенами, модель DocOwl2 показала лучшие или сопоставимые результаты на 10 бенчмарках. Особенно с меньшим количеством визуальных токенов DocOwl2 превзошла модели, такие как TextMonkey и TokenPacker, которые также стремились сжимать визуальные токены, демонстрируя эффективность High-resolution DocCompressor.

Также по сравнению с передовыми мультимодальными LLMs с более чем 1 000 визуальными токенами модель DocOwl2 достигла более 80% их производительности, используя менее 20% визуальных токенов. Для задач понимания многостраничных документов и понимания видео с богатым текстом модель DocOwl2 также продемонстрировала превосходную производительность и значительно меньшую первую задержку токена по сравнению с другими мультимодальными LLMs, которым можно подавать более 10 изображений на одной GPU A100-80G.

Это исследование представляет mPLUG-DocOwl2, мультимодальную большую языковую модель, способную к эффективному OCR-бесплатному пониманию многостраничных документов. Надежная архитектура High-resolution DocCompressor сжимает каждое высокоразрешающее изображение документа всего лишь в 324 токена с использованием кросс-внимания с глобальными визуальными особенностями в качестве руководства. На бенчмарках одиночных изображений DocOwl2 превосходит существующие методы сжатия и соответствует передовым MLLM, используя меньше визуальных токенов. Он также достигает передовой производительности без OCR в задачах понимания многостраничных документов и видео с богатым текстом с гораздо меньшей задержкой. Исследователи подчеркивают, что использование тысяч визуальных токенов на страницу документа часто излишне и является потерей вычислительных ресурсов. Они надеются, что DocOwl2 привлечет внимание к балансировке эффективного представления изображений и высокопроизводительного понимания документов.

Проверьте статью и GitHub. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter и LinkedIn. Присоединяйтесь к нашему Telegram-каналу.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему 50k+ ML SubReddit

Пост опубликован на MarkTechPost.

«`

Улучшение понимания документов с помощью DocOwl2: новая архитектура высокого разрешения сжатия

Повышение понимания документов с помощью DocOwl2: новая архитектура сжатия высокого разрешения

Практические решения и ценность

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

Монетизация блога по саморазвитию через AI

Как зарабатывать на AI в нише психологии

Как блогеру о психологии начать зарабатывать

AI для риелторов — как увеличить заявки без менеджера

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Агент для автоматизации ITIL-процессов : управление инцидентами и изменениями

ИИ-Специалист по автоматизации бухгалтерии : обработка счетов и налоговых деклараций

ИИ-Аналитик социальных сетей : генерация стратегий контента

ИИ-Агент по обработке клиентских запросов : автоматизация поддержки и анализа диалогов

Как сократить длительность звонка и уложиться в KPI: искусственный интеллект предложит структуру без лишнего

Скрипт “дозвона после неудачного контакта”: искусственный интеллект предложит шаблон повторного касания

Как повысить оценку в голосовании после звонка: искусственный интеллект предложит фразы завершения разговора

Как провести экспресс-анализ резюме за 3 минуты: искусственный интеллект подскажет, на что смотреть первым

Как адаптировать бренд под новую аудиторию: ИИ предложит корректировки платформы и коммуникаций

Как составить юридическое заключение по проекту: ИИ структурирует документ и предложит формулировки

Лучший ИИ онлайн

Переосмысление токсичных данных в предварительном обучении LLM: подход совместного проектирования для улучшения управляемости и детоксикации

Графовый трансформер для прогнозирования трафика: эффективность и производительность.

LocAgent: Как графовые ИИ-агенты революционизируют локализацию кода для эффективного обслуживания ПО

Новый стандарт SUPER для оценки способности LLM проводить и выполнять исследовательские эксперименты, предложенный исследователями Allen Institute for AI

LEANN: Компактная векторная база данных для эффективного персонального ИИ

create-tsi: Generative AI RAG Toolkit uses LlamaIndex and low code to generate AI applications.

Первый обучаемый поисковик изображений с универсальным подходом: OmniGlue

Авторские права

Партнеры

Подписка

Контакты

О нас

Возврат и гарантии