Itinai.com a clean and modern mobile app on the iphone 15 scr e3b29410 3643 4064 bb25 175aab213a25 0
Itinai.com a clean and modern mobile app on the iphone 15 scr e3b29410 3643 4064 bb25 175aab213a25 0

Исследователи NYU и Meta AI предлагают E-RLHF для борьбы с обходом защиты LLM

Легче сразу спросить 💭

AI снижает операционные расходы на 20–40% 📊 за 6 месяцев. А что бы вы сделали с этими деньгами?

Опишите задачу — обсудим, как это можно реализовать у вас.

ИИ автоматизирует 70% рутинных задач 🤖 за 3 месяца. Какие процессы в вашем бизнесе скинуть роботу?
Персонализированные AI-кампании увеличивают клиентскую базу на 30% 📈. Как это работает?
AI-аналитика сокращает ошибки в прогнозах на 50% 📉. Расскажите подробнее!
 Meta AI and NYU Researchers Propose E-RLHF to Combat LLM Jailbreaking

«`html

Большие языковые модели (LLM)

Большие языковые модели (LLM) завоевали популярность в области глубокого обучения, проявив уникальные способности в различных сферах, таких как помощь, генерация кода, здравоохранение и доказательство теорем. Однако LLM нуждаются в помощи для создания соответствующего контента. Несмотря на их эффективность в различных задачах, эти модели подвержены производству оскорбительного или неуместного контента, включая ненавистную речь, вредоносное ПО, фейковую информацию и социальные предубеждения.

Практические решения:

Группа исследователей из NYU и MetaAI, FAIR представили теоретическую модель для анализа уязвимостей LLM и предложили инновационный подход E-RLHF (Expanded Reinforcement Learning from Human Feedback), направленный на улучшение выравнивания языковых моделей и снижение уязвимости к взлому. Этот подход может быть интегрирован в целевую оптимизацию предпочтений, устраняя необходимость в явной модели вознаграждения. Подробнее ознакомиться с исследованием можно здесь.

Теоретическая модель и практические исследования

Исследователи представили комплексную теоретическую модель для анализа уязвимостей языковых моделей, сосредоточившись на разборе входных запросов на пары запросов и понятий. Их анализ привел к двум ключевым теоретическим результатам: во-первых, языковые модели могут имитировать мир после предварительного обучения, ведя к вредным результатам для вредных запросов; и, во-вторых, взлом является неизбежным из-за проблем с выравниванием.

Практические решения:

Исследователи провели эксперименты с использованием кодовой базы руководства по выравниванию и общедоступной модели SFT. Результаты показали, что E-DPO снизил среднюю степень успешности атак (ASR) для обеих моделей и продемонстрировал улучшения по сравнению со стандартной DPO. Их исследование также оценило полезность, используя проект MT-Bench, и показало, что E-DPO показал результаты, превосходящие оценку модели SFT. Исследователи пришли к выводу, что E-DPO улучшает выравнивание безопасности без ущерба для полезности модели и может быть комбинирован с системными запросами для дальнейшего улучшения безопасности.

AI в бизнесе

Если ваша компания хочет внедрить искусственный интеллект, обратитесь к нам для консультаций по внедрению ИИ. Вы можете ознакомиться с нашими новостями о ИИ в Телеграм-канале itinainews или на Twitter @itinairu45358. Также предлагаем воспользоваться AI Sales Bot, который поможет вам в работе с клиентами и создании контента для отдела продаж.

Arcee AI introduces Arcee Swarm

Познакомьтесь с новым продуктом Arcee AI — Arcee Swarm, который представляет собой инновационное сочетание агентов MoA Architecture, вдохновленное кооперативным интеллектом, найденным в самой природе.

«`

Полезные ссылки:

Новости в сфере искусственного интеллекта