“`html
ПрогрессГим: машинный фреймворк для динамического этического выравнивания в системах искусственного интеллекта
Системы искусственного интеллекта, включая LLMs, всё больше формируют убеждения и ценности людей, выступая в роли персональных помощников, педагогов и авторов. Однако эти системы, обученные на огромных объемах данных, часто отражают и распространяют существующие общественные предубеждения. Это явление, известное как блокировка ценностей, может закреплять ошибочные моральные убеждения и практики на общественном уровне, что потенциально усиливает проблематичные поведенческие модели, такие как бездействие в отношении климатических изменений и дискриминация.
Решение
Исследователи из Пекинского университета и Корнелльского университета представляют “выравнивание прогресса” в качестве решения для смягчения блокировки ценностей в системах искусственного интеллекта. Они представляют ProgressGym, инновационный фреймворк, использующий девять веков исторических текстов и 18 исторических LLMs для изучения и эмуляции морального прогресса людей. ProgressGym фокусируется на трех основных задачах: отслеживание изменяющихся ценностей, прогнозирование будущих моральных сдвигов и регулирование обратной связи между ценностями человека и ИИ. Фреймворк преобразует эти задачи в измеримые показатели и включает базовые алгоритмы для выравнивания прогресса.
Помимо этого, ProgressGym предлагает единый фреймворк для решения вызовов выравнивания прогресса, представляя их в виде временных POMDP – частично наблюдаемых марковских процессов принятия решений. Каждая из этих задач выравнивает поведение ИИ с изменяющимися ценностями людей в течение девяти веков. В рамках фреймворка используется стандартизированное представление состояний человеческих ценностей, действий ИИ в диалогах и наблюдений за ответами людей.
Значение
ProgressGym позволяет измерить выравнивание ИИ с историческим и моральным прогрессом, а также прогнозировать будущие сдвиги. Экспериментальные результаты на трех основных задачах — PG-Follow, PG-Predict и PG-Coevolve — показывают, что в то время как пожизненные алгоритмы хорошо справляются с задачами, экстраполяционные методы часто превосходят их с учетом экстраполяции более высокого порядка. Эти результаты указывают на важность прогностического моделирования для эффективного выравнивания ИИ с изменяющимися ценностями людей во времени.
Чтобы узнать больше о результатах исследования, посетите MarkTechPost.
Присоединяйтесь к нашему Telegram-каналу и группе LinkedIn для обновлений и новостей.
Если вам нравится наша работа, вам понравится наша рассылка. Не забудьте присоединиться к нашему сообществу на Reddit.
Для получения подробной информации о внедрении ProgressGym и других решений в области искусственного интеллекта, посетите наш сайт или свяжитесь с нами через Telegram.
“`