Продвижение в очищении крупных языковых моделей (LLM) с помощью редактирования знаний
Адресация вопросов безопасности
По мере развития крупных языковых моделей (LLM), таких как ChatGPT, LLaMA и Mistral, возросли опасения относительно их уязвимости к вредоносным запросам. Для решения этой проблемы широко применяются подходы, такие как наблюдаемая тонкая настройка (SFT), обучение с подкреплением на основе обратной связи от людей (RLHF) и прямая оптимизация предпочтений (DPO) для улучшения безопасности LLM, позволяя им отклонять вредоносные запросы.
Точные методы очистки
Выровненные модели все еще могут быть уязвимы к изощренным вредоносным запросам, возникают вопросы о точной модификации токсичных областей в LLM для достижения очистки. Недавние исследования продемонстрировали важность разработки точных методов очистки для устранения скрытых уязвимостей.
Введение SafeEdit Benchmark
Для устранения разрыва в оценке задач очистки с использованием редактирования знаний исследователи Университета Чжэцзян представили SafeEdit – комплексный бенчмарк, разработанный для оценки задач очистки с использованием редактирования знаний. SafeEdit охватывает девять небезопасных категорий с мощными шаблонами атак и расширяет метрики оценки для включения успеха защиты, обобщения защиты и общей производительности, предоставляя стандартизированную структуру для оценки методов очистки.
Эффективные методы очистки
Ряд подходов к редактированию знаний, включая MEND и Ext-Sub, показали потенциал для эффективной очистки LLM с минимальным воздействием на общую производительность. Кроме того, новый базовый уровень редактирования знаний, Detoxifying with Intraoperative Neural Monitoring (DINM), направлен на уменьшение токсичных областей в LLM при минимизации побочных эффектов, превосходя традиционные методы SFT и DPO в очистке LLM.
Будущие приложения
Результаты подчеркивают значительный потенциал редактирования знаний для очистки LLM, и эффективный метод DINM представляет собой многообещающий шаг к решению проблемы очистки LLM. Это проливает свет на будущие применения наблюдаемой тонкой настройки, прямой оптимизации предпочтений и редактирования знаний для улучшения безопасности и устойчивости крупных языковых моделей.
Практические решения искусственного интеллекта для бизнеса
Искусственный интеллект для эволюции бизнеса
Узнайте, как искусственный интеллект может переопределить ваш способ работы и помочь вашей компании оставаться конкурентоспособной. Определите возможности автоматизации, определите ключевые показатели эффективности, выберите решение на основе искусственного интеллекта и внедряйте его постепенно, чтобы развивать вашу компанию с помощью искусственного интеллекта.
Искусственный интеллект в продажах
Рассмотрите AI Sales Bot от itinai.com/aisalesbot, разработанный для автоматизации взаимодействия с клиентами круглосуточно и управления взаимодействием на всех этапах путешествия клиента, переопределяя процессы продаж и взаимодействие с клиентами.
Связь с нами
Для получения консультаций по управлению KPI с использованием искусственного интеллекта и постоянных идей о взаимодействии с искусственным интеллектом свяжитесь с нами по адресу hello@itinai.com. Следите за нашими новостями в Telegram t.me/itinainews или Twitter @itinaicom для получения дополнительной информации.
Список полезных ссылок:
AI Lab в Telegram @aiscrumbot – бесплатная консультация
Эта статья AI Paper Introduces SafeEdit: A New Benchmark to Investigate Detoxifying LLMs via Knowledge Editing
MarkTechPost
Twitter – @itinaicom