Защита от утечки данных в приложениях с помощью Salesforce AI Research.

 Salesforce AI Research Proposes a Novel Threat Model: Building Secure LLM Applications Against Prompt Leakage Attacks





Продвижение AI-решений

Значимость проблемы протечки инструкций в крупных языковых моделях (LLMs)

Практические решения и ценность

Проблема протечки инструкций в LLM стала серьезным вызовом безопасности. Злоумышленники могут извлекать чувствительную информацию из запросов к LLM через целенаправленные атаки. Существуют методы, такие как фреймворк PromptInject и оптимизация на основе градиентов, для борьбы с этой уязвимостью. Обоснованные стратегии защиты исключительно важны для сохранения доверия пользователей.

Исследования и методы обработки протечки инструкций

Современные подходы и анализ

Исследования расширились на изучение рисков протечки данных и информации из внешних баз данных. Разработаны методы атак, такие как PRSA, позволяющие выявлять инструкции к LLM. Различные методы обороны, включая перплексию, обработку входных данных и адаптивное обучение, показали свою эффективность в борьбе с протечкой инструкций.

Стратегии обороны и исследования Salesforce AI Research

Безопасность и меры противодействия

Исследование Salesforce AI Research применяет стандартизированные сценарии для оценки эффективности оборонительных стратегий против протечки инструкций в LLM. Методология включает многотурний вопросно-ответный формат, фокусируясь на четырех областях: новости, медицине, юриспруденции и финансах. Это позволяет систематизированно оценить утечку информации в различных контекстах.

Ключевym компонентом стратегии обороны является слой перезаписи запросов, особенно в поисково-генеративных системах. Результаты исследований показывают, что комбинация нескольких методов обороны дает наилучшие результаты. Для закрытых моделей перепись запросов оказалась наиболее эффективной, снижая уровень успешных атак на 16,8%. Тем временем, для открытых моделей структурированный ответ был наиболее эффективен, уменьшая уровень успешных атак на 28,2%.


Полезные ссылки: