Инструмент для создания водяных знаков в LLM: открытый исходный код

 MARKLLM: An Open-Source Toolkit for LLM Watermarking

“`html

MARKLLM: Открытый набор инструментов для водяных знаков LLM

LLM водяные знаки встраивают незаметные, обнаружимые сигналы в текст, созданный с использованием искусственного интеллекта, чтобы идентифицировать его происхождение, решая проблемы злоупотребления, такие как выдача себя за кого-то другого, написание текстов от лица другого человека и фейковые новости. Несмотря на свою обещающую способность отличать тексты, созданные людьми, от текстов, созданных искусственным интеллектом, и предотвращать распространение ложной информации, данная область сталкивается с вызовами. Многочисленные и сложные алгоритмы водяных знаков, а также разнообразные методы оценки делают сложным для исследователей и общественности экспериментировать и понимать эти технологии. Консенсус и поддержка имеют важное значение для продвижения водяных знаков LLM с целью обеспечения надежной идентификации контента, созданного искусственным интеллектом, и поддержания целостности цифровой коммуникации.

MARKLLM: Основные возможности

Ученые из Университетов Цинхуа, Шанхайского Университета Цзяотун, Сиднейского Университета, Университета Калифорнии в Санта-Барбаре, Китайского университета Гонконга и Технологического университета Гонконга разработали MARKLLM – набор инструментов с открытым исходным кодом для LLM-водяных знаков. MARKLLM предоставляет унифицированную, расширяемую структуру для реализации алгоритмов водяных знаков, поддерживая девять конкретных методов из двух основных семейств алгоритмов. Он предлагает удобный интерфейс загрузки алгоритмов, водяных знаков в тексте, обнаружения и визуализации данных. Набор инструментов включает 12 оценочных инструментов и два автоматизированных конвейера для оценки обнаружимости, устойчивости и влияния на качество текста. Модульное строение MARKLLM повышает масштабируемость и гибкость, делая его ценным ресурсом для исследователей и широкой публики для продвижения технологии водяных знаков LLM.

Алгоритмы LLM-водяных знаков

Алгоритмы водяных знаков LLM можно разделить на две основные категории: семейство KGW и семейство Christ. Метод KGW изменяет LLM логиты, чтобы предпочитать определенные маркеры, создавая водяной текст, идентифицируемый статистическим порогом. Вариации этого метода улучшают производительность, снижают влияние на качество текста, увеличивают емкость водяного знака, устойчивы к атакам на удаление и обеспечивают публичное обнаружение. Семейство Christ использует псевдослучайные последовательности для направления выборки маркеров, с методами, такими как EXP-выбор, коррелирующими текст с этими последовательностями для обнаружения. Оценка алгоритмов водяных знаков включает в себя оценку обнаружимости, устойчивости к вмешательству и влияния на качество текста с использованием метрик, таких как перплексия и разнообразие.

Преимущества MARKLLM

MARKLLM предоставляет унифицированную структуру для решения проблем с алгоритмами водяных знаков LLM, включая отсутствие стандартизации, единства и качества кода. Он позволяет легко вызывать и переключаться между алгоритмами, предлагая хорошо спроектированную структуру классов. MARKLLM включает модуль визуализации алгоритмов семейств KGW и Christ, выделяя предпочтения маркеров и корреляции. Он включает 12 оценочных инструментов и два автоматизированных конвейера для оценки обнаружимости водяных знаков, устойчивости и влияния на качество текста. Набор инструментов поддерживает гибкие конфигурации, облегчая тщательные и автоматизированные оценки алгоритмов водяных знаков с использованием различных метрик и сценариев атак.

Результаты и перспективы

С использованием MARKLLM было проанализировано девять алгоритмов водяных знаков на обнаружимость, устойчивость и влияние на качество текста. Для общего создания текста использовался набор данных C4, для машинного перевода – WMT16, а для генерации кода – HumanEval. Модели языка OPT-1.3b и Starcoder также использовались. Для оценки использовались динамическая корректировка порога и различные атаки на текст, среди метрик были PPL, лог-разнообразие, BLEU, pass@1 и GPT-4 Judge. Результаты показали высокую точность обнаружения, индивидуальные преимущества каждого алгоритма и различные результаты в зависимости от метрик и атак. Удобный интерфейс MARKLLM облегчает проведение всесторонних оценок, предлагая ценные идеи для будущих исследований.

Заключение

MARKLLM – это открытый набор инструментов, предназначенный для LLM-водяных знаков, предлагающий гибкие конфигурации для различных алгоритмов, водяных знаков в тексте, обнаружения и визуализации. Он включает удобные инструменты оценки и настраиваемые конвейеры для тщательной оценки с разных точек зрения. Хотя он поддерживает только некоторые методы, исключая недавние подходы к встраиванию водяных знаков в параметры модели, ожидается, что будущие вклады расширят его возможности. Предоставленные визуальные решения полезны, но могли бы быть более разнообразными. Кроме того, несмотря на то, что оно охватывает ключевые аспекты оценки, некоторые сценарии, например, повторный перевод и атаки CWRA, все еще требуют полного рассмотрения. Разработчиков и исследователей призывают принимать участие в укреплении и расширении функциональности MARKLLM.

Посмотрите на Paper и GitHub. Вся заслуга за этот проект принадлежит его исследователям. Также не забудьте подписаться на нас в Twitter. Присоединяйтесь к нашему Telegram-каналу, Discord-каналу и группе LinkedIn.

Если вам нравится наша работа, вам понравится наш bulletin.

Не забудьте присоединиться к нашему 42k+ ML SubReddit

The post MARKLLM: An Open-Source Toolkit for LLM Watermarking appeared first on MarkTechPost.

“`

Полезные ссылки: