Обучение отказу в LLM: атака и защита в прошедшем времени

 Reinforcing Robust Refusal Training in LLMs: A Past Tense Reformulation Attack and Potential Defenses

“`html

Усиление устойчивости отказной тренировки в LLM: атака реформулирования в прошедшем времени и потенциальные защиты

Большие языковые модели (LLM) типа GPT-3.5 и GPT-4 – это передовые системы искусственного интеллекта, способные генерировать текст, похожий на человеческий. Они обучены на огромном объеме данных для выполнения различных задач, от ответов на вопросы до написания эссе. Основной вызов в этой области заключается в обеспечении того, чтобы эти модели не производили вредный или недопустимый контент, что решается с помощью методов, таких как отказная тренировка. Она включает тонкую настройку LLM для отклонения вредных запросов, что является важным шагом в предотвращении злоупотреблений, таких как распространение дезинформации, токсичного контента или инструкций для незаконных действий.

Текущие методы отказной тренировки

Текущие методы отказной тренировки включают наблюдаемую тонкую настройку, обучение с подкреплением с обратной связью человека (RLHF) и адверсариальную тренировку. Они включают предоставление модели примеров вредных запросов и обучение ее отклонять такие входы. Однако эффективность этих методов может значительно варьировать, и они часто не могут обобщаться на новые или адверсариальные запросы.

Новый подход

Исследователи из EPFL представили новый подход, чтобы выявить недостатки существующих методов отказной тренировки. Путем переформулирования вредных запросов в прошедшем времени они продемонстрировали, что многие современные LLM могут быть легко обмануты для генерации вредного контента. Данный метод позволил обойти механизмы отказа нескольких ведущих LLM, выявляя значительный недостаток в текущих методах обучения.

Практическое применение

Результаты показали значительное увеличение успешности генерации вредного контента при использовании переформулирования в прошедшем времени. Например, успешность механизма отказа GPT-4o увеличилась с 1% до 88% после 20 попыток переформулирования. Эти результаты подчеркивают уязвимость текущих методов отказной тренировки к простым лингвистическим изменениям, подчеркивая необходимость более надежных стратегий тренировки для обработки различных формулировок запросов.

Заключение

Исследование выявило критическую уязвимость в текущих методах отказной тренировки LLM, демонстрируя, что простое переформулирование может обойти меры безопасности. Это требует улучшения методов тренировки для обобщения различных запросов. Предложенный метод является ценным инструментом для оценки и усиления устойчивости отказной тренировки в LLM. Адресация этих уязвимостей является важным для развития более безопасных и надежных систем искусственного интеллекта.

Подпишитесь на наш Телеграм-канал и Twitter для самых свежих новостей об искусственном интеллекте.

Не забудьте попробовать AI Sales Bot – это инструмент, помогающий в продажах с помощью искусственного интеллекта.

Подробнее о решениях от AI Lab itinai.ru можно узнать здесь. Будущее уже здесь!

“`

Полезные ссылки: