“`html
Обеспечение безопасности и модерации взаимодействия пользователей с современными языковыми моделями (LLM)
Это ключевая задача в области искусственного интеллекта. Если модели не будут должным образом защищены, они могут создавать вредный контент, подвергаться воздействию враждебных запросов (проникновение в систему) и недостаточно отклонять неприемлемые запросы. Эффективные инструменты модерации необходимы для выявления злонамеренных намерений, обнаружения рисков безопасности и оценки уровня отказов моделей, что обеспечивает доверие и применимость в чувствительных областях, таких как здравоохранение, финансы и социальные медиа.
Существующие методы модерации взаимодействия с LLM
Включают инструменты, такие как Llama-Guard и различные другие модели открытого исходного кода. Однако у них есть несколько ограничений: они затрудняют обнаружение враждебных проникновений, менее эффективны в обнаружении отказов и часто полагаются на решения на основе API, такие как GPT-4, которые являются дорогостоящими и нестатическими. Эти методы также лишены комплексных наборов данных для обучения, что ограничивает их применимость и производительность в реальных сценариях, где враждебные и доброжелательные запросы являются обычными.
WILDGUARD: новый инструмент модерации
Представляет собой инновационный, легкий инструмент модерации, разработанный для преодоления ограничений существующих методов. WILDGUARD выделяется тем, что предоставляет комплексное решение для выявления вредных запросов, обнаружения рисков безопасности и оценки уровня отказов моделей. Основу инновации составляет WILDGUARDMIX – крупномасштабный, сбалансированный набор данных для модерации безопасности, включающий 92 000 помеченных примеров. Этот набор данных включает как прямые, так и враждебные запросы в паре с отказами и согласием, охватывая 13 категорий рисков. Подход WILDGUARD основан на многозадачном обучении для улучшения его возможностей модерации, достигая передовой производительности в модерации безопасности с открытым исходным кодом.
Техническая основа WILDGUARD
Состоит из набора данных WILDGUARDMIX, включающего подмножества WILDGUARDTRAIN и WILDGUARDTEST. WILDGUARDTRAIN включает 86 759 элементов из синтетических и реальных источников, охватывая обычные и враждебные запросы. Он также содержит разнообразный набор доброжелательных и вредных запросов с соответствующими ответами. WILDGUARDTEST – это высококачественный, человеком аннотированный набор для оценки, содержащий 5 299 элементов. Ключевые технические аспекты включают использование различных LLM для генерации ответов, детальные процессы фильтрации и аудита для обеспечения качества данных, а также использование GPT-4 для разметки и генерации сложных ответов для улучшения производительности классификатора.
Превосходство WILDGUARD
Показывает превосходную производительность во всех задачах модерации, превосходя существующие инструменты с открытым исходным кодом и часто соответствуя или превосходя GPT-4 в различных бенчмарках. Ключевые метрики включают улучшение обнаружения отказов до 26,4% и идентификации вредности запросов до 3,9%. WILDGUARD достигает F1-оценки 94,7% в обнаружении вредности ответов и 92,8% в обнаружении отказов, значительно превосходя другие модели, такие как Llama-Guard2 и Aegis-Guard. Эти результаты подчеркивают эффективность и надежность WILDGUARD в обработке как враждебных, так и обычных сценариев запросов, утверждая его как надежный и высокоэффективный инструмент модерации безопасности.
Заключение
WILDGUARD представляет собой значительный прогресс в области модерации безопасности LLM, решая критические задачи с помощью комплексного решения с открытым исходным кодом. Вклад включает в себя представление WILDGUARDMIX – надежного набора данных для обучения и оценки, а также разработку WILDGUARD – передового инструмента модерации. Эта работа имеет потенциал улучшить безопасность и надежность LLM, открывая путь для их более широкого применения в чувствительных и высокоставочных областях.
Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter.
Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наш новостной бюллетень.
Не забудьте присоединиться к нашему 45k+ ML SubReddit.
Источник: MarkTechPost
“`