Фреймворк ProgressGym для этической настройки искусственного интеллекта.

 ProgressGym: A Machine Learning Framework for Dynamic Ethical Alignment in Frontier AI Systems

“`html

ПрогрессГим: машинный фреймворк для динамического этического выравнивания в системах искусственного интеллекта

Системы искусственного интеллекта, включая LLMs, всё больше формируют убеждения и ценности людей, выступая в роли персональных помощников, педагогов и авторов. Однако эти системы, обученные на огромных объемах данных, часто отражают и распространяют существующие общественные предубеждения. Это явление, известное как блокировка ценностей, может закреплять ошибочные моральные убеждения и практики на общественном уровне, что потенциально усиливает проблематичные поведенческие модели, такие как бездействие в отношении климатических изменений и дискриминация.

Решение

Исследователи из Пекинского университета и Корнелльского университета представляют “выравнивание прогресса” в качестве решения для смягчения блокировки ценностей в системах искусственного интеллекта. Они представляют ProgressGym, инновационный фреймворк, использующий девять веков исторических текстов и 18 исторических LLMs для изучения и эмуляции морального прогресса людей. ProgressGym фокусируется на трех основных задачах: отслеживание изменяющихся ценностей, прогнозирование будущих моральных сдвигов и регулирование обратной связи между ценностями человека и ИИ. Фреймворк преобразует эти задачи в измеримые показатели и включает базовые алгоритмы для выравнивания прогресса.

Помимо этого, ProgressGym предлагает единый фреймворк для решения вызовов выравнивания прогресса, представляя их в виде временных POMDP – частично наблюдаемых марковских процессов принятия решений. Каждая из этих задач выравнивает поведение ИИ с изменяющимися ценностями людей в течение девяти веков. В рамках фреймворка используется стандартизированное представление состояний человеческих ценностей, действий ИИ в диалогах и наблюдений за ответами людей.

Значение

ProgressGym позволяет измерить выравнивание ИИ с историческим и моральным прогрессом, а также прогнозировать будущие сдвиги. Экспериментальные результаты на трех основных задачах — PG-Follow, PG-Predict и PG-Coevolve — показывают, что в то время как пожизненные алгоритмы хорошо справляются с задачами, экстраполяционные методы часто превосходят их с учетом экстраполяции более высокого порядка. Эти результаты указывают на важность прогностического моделирования для эффективного выравнивания ИИ с изменяющимися ценностями людей во времени.

Чтобы узнать больше о результатах исследования, посетите MarkTechPost.

Присоединяйтесь к нашему Telegram-каналу и группе LinkedIn для обновлений и новостей.

Если вам нравится наша работа, вам понравится наша рассылка. Не забудьте присоединиться к нашему сообществу на Reddit.

Для получения подробной информации о внедрении ProgressGym и других решений в области искусственного интеллекта, посетите наш сайт или свяжитесь с нами через Telegram.

“`

Полезные ссылки: