Исследователи Google AI предлагают метод обучения с учетом шума (NAT) для моделей языка, ориентированных на структуру текста.

 Google AI Researchers Propose a Noise-Aware Training Method (NAT) for Layout-Aware Language Models

Эффективное извлечение информации из визуально насыщенных документов

В рабочих процессах бизнеса визуально насыщенные документы (VRD), такие как счета-фактуры, коммунальные счета и страховые квоты, часто представляют схожую информацию в различных макетах и форматах. Извлечение данных из этих документов может значительно сократить ручные усилия.

Проблемы и решения

Извлечение информации из VRD представляет определенные трудности из-за необходимости понимания как текстовых, так и визуальных свойств документов. Многие существующие методы основаны на обучении с учителем, что требует трудоемкой разметки образцов.

Были предложены методы предварительного обучения для решения этой проблемы, но они часто требуют значительного времени и вычислительных ресурсов. В ответ на это команда исследователей из Google AI предложила метод обучения с учетом шума (NAT) для обучения надежных извлекателей с ограниченным количеством размеченных образцов за ограниченное время.

Практическая ценность

Метод NAT работает в трех фазах, используя размеченные и неразмеченные данные для итеративного улучшения производительности извлекателя с учетом временных ограничений. Этот подход имеет потенциал значительно улучшить эффективность и масштабируемость рабочих процессов обработки документов в предприятиях, в конечном итоге повышая производительность и снижая операционные издержки.

AI-решения для бизнеса

AI может переопределить рабочие процессы, автоматизируя взаимодействие с клиентами и управляя взаимодействием на всех этапах клиентского пути. Постепенная реализация AI-решений, начиная с пилотного проекта и осторожно расширяя использование, может привести к измеримым результатам в бизнес-процессах.

Список полезных ссылок:

AI Lab в Telegram @aiscrumbot – бесплатная консультация

Исследователи Google AI предлагают метод обучения с учетом шума (NAT) для моделей языка, ориентированных на макет

MarkTechPost

Twitter – @itinaicom

Полезные ссылки: