Новый многоязычный синтетический финансовый набор данных от Gretel AI теперь доступен на HuggingFace для разработчиков ИИ, работающих над обнаружением персональной информации PII.

 Gretel AI Releases a New Multilingual Synthetic Financial Dataset on HuggingFace 🤗 for AI Developers Tackling Personally Identifiable Information PII Detection

“`html

Обнаружение личной идентифицирующей информации (ЛИИ) в документах

Обнаружение ЛИИ в документах требует соблюдения различных регуляций, таких как Общий регламент по защите данных (GDPR) ЕС и различные законы о защите финансовых данных в США. Эти регуляции обязывают обеспечивать безопасную обработку чувствительных данных, включая идентификаторы клиентов, финансовые записи и другую личную информацию.

Усиление обнаружения ЛИИ с помощью доменно-специфических наборов данных

Каждая организация имеет уникальные форматы данных и требования, которые могут потребовать полного охвата существующими моделями распознавания именованных сущностей (NER) или образцовых наборов данных. Инструмент Navigator от Gretel позволяет разработчикам создавать настраиваемые синтетические наборы данных, отражающие их потребности. Этот подход значительно сокращает время и затраты по сравнению с традиционными методами ручной разметки.

Основные особенности синтетического финансового набора данных

Расширенные записи: 55 940 записей были разделены на 50 776 обучающих образцов и 5 164 тестовых образцов.

Охват форматов финансовых документов: включает 100 различных форматов финансовых документов с 20 конкретными подтипами для каждого формата.

Синтетическая ЛИИ: содержит 29 различных типов ЛИИ, согласованных с генераторами библиотеки Python Faker для легкого обнаружения и замены.

Полные документы: средняя длина документов составляет 1 357 символов.

Поддержка нескольких языков: поддерживает английский, испанский, шведский, немецкий, итальянский, голландский и французский.

Контроль качества: используется техника LLM-as-a-Judge с языковой моделью Mistral-7B для обеспечения качества данных и оценки их соответствия, качества, токсичности, предвзятости и обоснованности.

Применение синтетического финансового набора данных

Обучение моделей NER: обнаружение и маркировка ЛИИ в различных областях.

Тестирование систем сканирования ЛИИ: оценка систем сканирования ЛИИ на реальных полных документах, уникальных для различных областей.

Оценка систем деидентификации: оценка производительности систем деидентификации на реалистичных документах, содержащих ЛИИ.

Разработка решений по защите данных: создание и тестирование решений по защите данных для финансовой отрасли.

Оценка качества и использование

Качество синтетической ЛИИ и документов в этом наборе данных обеспечивается техникой LLM-as-a-Judge с использованием языковой модели Mistral-7B. Каждая сгенерированная запись оценивается на основе нескольких критериев: соответствия, качества, токсичности, предвзятости и обоснованности. Записи с высокими оценками токсичности или предвзятости или низкими оценками обоснованности, качества или соответствия удаляются для поддержания целостности набора данных.

Поддержка сообщества открытых данных

Обязательства Gretel по продвижению открытых данных и содействию сотрудничеству в сообществе ИИ проявляются в выпуске этого набора данных. Gretel стремится ускорить разработку более точных, непредвзятых и надежных систем ИИ, предоставляя высококачественные, разнообразные и этично полученные наборы данных. Синтетический финансовый набор данных – лишь один пример этого обязательства, предоставляя ценный ресурс для разработчиков и исследователей для создания надежных решений по обнаружению ЛИИ.

Заключение

Синтетический финансовый набор данных от Gretel представляет собой важное новшество в обнаружении ЛИИ. Gretel предоставляет возможность разработчикам ИИ создавать более эффективные и доменно-специфические системы обнаружения ЛИИ, предоставляя всесторонний и настраиваемый набор данных. Эта инициатива решает технические проблемы обнаружения ЛИИ и способствует соблюдению и защите данных в различных отраслях. Ресурсы, такие как набор данных от Gretel, обеспечат безопасную и ответственную обработку чувствительных данных по мере развития ИИ.

“`

Полезные ссылки: