ИБМ открывает исходный код Docling: инструмента ИИ для точного преобразования PDF-документов и поддержания структурной целостности сложных макетов.

 IBM Research Open-Sources Docling: An AI Tool for High-Precision PDF Document Conversion and Structural Integrity Maintenance Across Complex Layouts

“`html

Эффективное преобразование документов в форматы, понятные машинам

Преобразование документов, особенно из PDF в машинно-обрабатываемые форматы, долгое время представляло существенные трудности из-за разнообразия и часто сложной природы файлов PDF. Эти документы, широко используемые в различных отраслях, часто требуют большей стандартизации, что приводит к потере структурных элементов при оптимизации для печати. Эта потеря усложняет процесс восстановления, поскольку важные элементы, такие как таблицы, фигуры и порядок чтения, могут быть неправильно интерпретированы или полностью утрачены. В связи с увеличивающейся зависимостью бизнеса и исследователей от цифровых документов, стало критически важно иметь эффективные и точные инструменты для их преобразования.

Проблема и ее решение

Главной проблемой в преобразовании документов является надежное извлечение содержимого из PDF при сохранении структурной целостности документа. Традиционные методы часто терпят неудачи из-за широкой вариабельности форматов PDF, что приводит к проблемам, таким как неточная реконструкция таблиц, неправильное размещение текста и потеря метаданных. Эта проблема имеет техническую и практическую природу, поскольку точность преобразования документов напрямую влияет на последующие задачи, такие как анализ данных, функционал поиска и извлечение информации.

Текущие инструменты для преобразования PDF, как коммерческие, так и открытые, часто должны соответствовать необходимым стандартам производительности и точности. Многие существующие решения ограничены своей зависимостью от собственных алгоритмов и ограничительных лицензий, что затрудняет их адаптируемость и широкое использование. Даже популярные методы испытывают затруднения с определенными задачами, такими как точное распознавание таблиц и анализ макета, критические компоненты высококачественного преобразования документов.

Решение от AI4K Group at IBM Research: Docling

Группа AI4K в IBM Research представила Docling, открытый пакет, специально разработанный для преобразования документов в формат PDF. Docling отличается тем, что использует специализированные модели искусственного интеллекта для анализа макета и распознавания структуры таблиц. Эти модели, включая DocLayNet и TableFormer, обучены на обширных наборах данных и могут работать с многими типами и форматами документов. Docling эффективен, работает на оборудовании общего назначения и гибок, предлагая настройки для пакетной обработки и интерактивного использования. Возможность инструмента работать с минимальными ресурсами, обеспечивая высококачественные результаты, делает его привлекательным вариантом для академических и коммерческих целей.

Основу функциональности Docling составляет его обрабатывающий конвейер, который работает через серию линейных шагов для обеспечения точного преобразования документов. Инструмент сначала анализирует PDF-документ, извлекая текстовые токены и их геометрические координаты. Затем применяются модели искусственного интеллекта, которые анализируют макет документа, идентифицируют элементы, такие как таблицы и фигуры, и восстанавливают исходную структуру с высокой точностью. Результаты анализа затем агрегируются и подвергаются последующей обработке для улучшения метаданных, определения языка документа и коррекции порядка чтения. Такой комплексный подход обеспечивает сохранение исходной целостности преобразованного документа, независимо от того, в каком формате он выводится: JSON или Markdown.

Docling продемонстрировал впечатляющие возможности на различных конфигурациях оборудования. Тесты, проведенные на наборе данных из 225 страниц, показали, что Docling способен обрабатывать документы с задержкой менее секунды на страницу на одном процессоре. На MacBook Pro M3 Max с 16 ядрами Docling обработал 92 страниц всего за 103 секунды, используя 16 потоков, достигнув производительности 2.45 страниц в секунду. Даже на старом оборудовании, таком как Intel Xeon E5-2690, Docling сохраняет уважительную производительность, обрабатывая 143 страниц за 239 секунд с 16 потоками. Эти результаты подчеркивают способность Docling обеспечивать быстрое и точное преобразование документов, делая его практичным выбором для сред с различными ограничениями ресурсов.

Заключение

Docling предоставляет надежный метод преобразования сложных документов в форматы, понятные машинам, путем совмещения передовых моделей искусственного интеллекта с гибкой платформой открытого исходного кода. Его способность поддерживать высокую производительность на стандартном оборудовании при обеспечении целостности преобразованного содержимого делает его бесценным инструментом для исследователей и коммерческих пользователей.

Посмотрите Paper и GitHub. Все заслуги за этот проект принадлежат исследователям этого проекта. Также не забудьте подписаться на нас в Twitter и LinkedIn. Присоединяйтесь к нашему Telegram Channel.

Если вам понравилась наша работа, вам понравится наш newsletter.

Не забудьте присоединиться к нашему 50k+ ML SubReddit.

Применение ИИ в вашем бизнесе

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте IBM Research Open-Sources Docling: An AI Tool for High-Precision PDF Document Conversion and Structural Integrity Maintenance Across Complex Layouts.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

“`

Полезные ссылки: