Исследователи из Alibaba и Ренминского университета Китая представили mPLUG-DocOwl 1.5: единое обучение структуры для понимания документов без OCR.

 Researchers from Alibaba and the Renmin University of China Present mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding

Введение

Команда исследователей из группы Alibaba и Ренминского университета Китая разработала систему Unified Structure Learning под названием DocOwl 1.5 для улучшения производительности многоязычных больших моделей (MLLMs) в понимании текстовых изображений без использования OCR.

Основные компоненты

H-Reducer: Модуль отображения видео в текст, сохраняющий информацию о тексте во время выравнивания функций видео и языка.

Unified Structure Learning: Включает в себя задачи структурно-ориентированного разбора и задачи локализации текста различной степени детализации в пяти областях: документ, веб-страница, таблица, диаграмма и естественное изображение. Это помогает MLLMs более эффективно понимать текстовые изображения.

Двухэтапное обучение: Улучшает базовые возможности распознавания текста и анализа структуры, делая модель более эффективной для последующего понимания документов.

Производительность

DocOwl 1.5 превосходит другие модели на десяти бенчмарках понимания визуальных документов, демонстрируя передовую производительность без использования OCR.

Практические решения в области искусственного интеллекта

Для компаний, стремящихся развиваться с использованием искусственного интеллекта, использование решений, подобных DocOwl 1.5, может переопределить их способы работы. Выявление возможностей автоматизации, определение ключевых показателей эффективности, выбор решений в области искусственного интеллекта и поэтапная реализация являются ключевыми этапами этого процесса.

AI Sales Bot

Рассмотрите AI Sales Bot от itinai.com/aisalesbot, разработанный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах пути клиента.

Свяжитесь с нами

Для получения советов по управлению KPI в области искусственного интеллекта и постоянных инсайтов по использованию искусственного интеллекта, свяжитесь с нами по адресу hello@itinai.com. Следите за нашими обновлениями на Telegram t.me/itinainews или Twitter @itinaicom.

Список полезных ссылок:

Лаборатория искусственного интеллекта в Telegram @aiscrumbot – бесплатная консультация

Исследователи из группы Alibaba и Ренминского университета Китая представляют mPLUG-DocOwl 1.5: Unified Structure Learning для понимания текстовых документов без OCR

MarkTechPost

Twitter – @itinaicom

Полезные ссылки: