Введение
Команда исследователей из группы Alibaba и Ренминского университета Китая разработала систему Unified Structure Learning под названием DocOwl 1.5 для улучшения производительности многоязычных больших моделей (MLLMs) в понимании текстовых изображений без использования OCR.
Основные компоненты
H-Reducer: Модуль отображения видео в текст, сохраняющий информацию о тексте во время выравнивания функций видео и языка.
Unified Structure Learning: Включает в себя задачи структурно-ориентированного разбора и задачи локализации текста различной степени детализации в пяти областях: документ, веб-страница, таблица, диаграмма и естественное изображение. Это помогает MLLMs более эффективно понимать текстовые изображения.
Двухэтапное обучение: Улучшает базовые возможности распознавания текста и анализа структуры, делая модель более эффективной для последующего понимания документов.
Производительность
DocOwl 1.5 превосходит другие модели на десяти бенчмарках понимания визуальных документов, демонстрируя передовую производительность без использования OCR.
Практические решения в области искусственного интеллекта
Для компаний, стремящихся развиваться с использованием искусственного интеллекта, использование решений, подобных DocOwl 1.5, может переопределить их способы работы. Выявление возможностей автоматизации, определение ключевых показателей эффективности, выбор решений в области искусственного интеллекта и поэтапная реализация являются ключевыми этапами этого процесса.
AI Sales Bot
Рассмотрите AI Sales Bot от itinai.com/aisalesbot, разработанный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействиями на всех этапах пути клиента.
Свяжитесь с нами
Для получения советов по управлению KPI в области искусственного интеллекта и постоянных инсайтов по использованию искусственного интеллекта, свяжитесь с нами по адресу hello@itinai.com. Следите за нашими обновлениями на Telegram t.me/itinainews или Twitter @itinaicom.
Список полезных ссылок:
Лаборатория искусственного интеллекта в Telegram @aiscrumbot – бесплатная консультация
Исследователи из группы Alibaba и Ренминского университета Китая представляют mPLUG-DocOwl 1.5: Unified Structure Learning для понимания текстовых документов без OCR
MarkTechPost
Twitter – @itinaicom