Данная статья представляет SafeEdit: новый бенчмарк для исследования детоксикации LLMs через редактирование знаний.

 This AI Paper Introduces SafeEdit: A New Benchmark to Investigate Detoxifying LLMs via Knowledge Editing

Продвижение в очищении крупных языковых моделей (LLM) с помощью редактирования знаний

Адресация вопросов безопасности

По мере развития крупных языковых моделей (LLM), таких как ChatGPT, LLaMA и Mistral, возросли опасения относительно их уязвимости к вредоносным запросам. Для решения этой проблемы широко применяются подходы, такие как наблюдаемая тонкая настройка (SFT), обучение с подкреплением на основе обратной связи от людей (RLHF) и прямая оптимизация предпочтений (DPO) для улучшения безопасности LLM, позволяя им отклонять вредоносные запросы.

Точные методы очистки

Выровненные модели все еще могут быть уязвимы к изощренным вредоносным запросам, возникают вопросы о точной модификации токсичных областей в LLM для достижения очистки. Недавние исследования продемонстрировали важность разработки точных методов очистки для устранения скрытых уязвимостей.

Введение SafeEdit Benchmark

Для устранения разрыва в оценке задач очистки с использованием редактирования знаний исследователи Университета Чжэцзян представили SafeEdit – комплексный бенчмарк, разработанный для оценки задач очистки с использованием редактирования знаний. SafeEdit охватывает девять небезопасных категорий с мощными шаблонами атак и расширяет метрики оценки для включения успеха защиты, обобщения защиты и общей производительности, предоставляя стандартизированную структуру для оценки методов очистки.

Эффективные методы очистки

Ряд подходов к редактированию знаний, включая MEND и Ext-Sub, показали потенциал для эффективной очистки LLM с минимальным воздействием на общую производительность. Кроме того, новый базовый уровень редактирования знаний, Detoxifying with Intraoperative Neural Monitoring (DINM), направлен на уменьшение токсичных областей в LLM при минимизации побочных эффектов, превосходя традиционные методы SFT и DPO в очистке LLM.

Будущие приложения

Результаты подчеркивают значительный потенциал редактирования знаний для очистки LLM, и эффективный метод DINM представляет собой многообещающий шаг к решению проблемы очистки LLM. Это проливает свет на будущие применения наблюдаемой тонкой настройки, прямой оптимизации предпочтений и редактирования знаний для улучшения безопасности и устойчивости крупных языковых моделей.

Практические решения искусственного интеллекта для бизнеса

Искусственный интеллект для эволюции бизнеса

Узнайте, как искусственный интеллект может переопределить ваш способ работы и помочь вашей компании оставаться конкурентоспособной. Определите возможности автоматизации, определите ключевые показатели эффективности, выберите решение на основе искусственного интеллекта и внедряйте его постепенно, чтобы развивать вашу компанию с помощью искусственного интеллекта.

Искусственный интеллект в продажах

Рассмотрите AI Sales Bot от itinai.com/aisalesbot, разработанный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействием на всех этапах путешествия клиента, переопределяя процессы продаж и взаимодействие с клиентами.

Связь с нами

Для получения консультаций по управлению KPI с использованием искусственного интеллекта и постоянных идей о взаимодействии с искусственным интеллектом свяжитесь с нами по адресу hello@itinai.com. Следите за нашими новостями в Telegram t.me/itinainews или Twitter @itinaicom для получения дополнительной информации.

Список полезных ссылок:

AI Lab в Telegram @aiscrumbot – бесплатная консультация

Эта статья AI Paper Introduces SafeEdit: A New Benchmark to Investigate Detoxifying LLMs via Knowledge Editing

MarkTechPost

Twitter – @itinaicom

Полезные ссылки: