Метод машинного обучения для оценки диалогов человека с ИИ в конкретной области

 This AI Paper from Microsoft Present RUBICON: A Machine Learning Technique for Evaluating Domain-Specific Human-AI Conversations

“`html

Оценка качества разговорных ассистентов AI

Оценка разговорных ассистентов AI, таких как GitHub Copilot Chat, является сложной из-за их зависимости от языковых моделей и интерфейсов на основе чата. Существующие метрики качества разговора требуют пересмотра для доменно-специфических диалогов, что затрудняет оценку эффективности этих инструментов разработки программного обеспечения.

Техника RUBICON от Microsoft для оценки доменно-специфических разговоров Human-AI

Исследователи из Microsoft представляют RUBICON – технику для оценки доменно-специфических разговоров Human-AI с использованием больших языковых моделей. RUBICON генерирует кандидатов для оценки качества разговора и выбирает лучшие из них. Он улучшает метод SPUR, интегрируя доменно-специфические сигналы и максимы Грайса, создавая пул оцениваемых рубрик. RUBICON был протестирован на 100 разговорах между разработчиками и ассистентом на основе чата для отладки C#, используя GPT-4 для генерации и оценки рубрик. Он превзошел альтернативные наборы рубрик, достигнув высокой точности в предсказании качества разговора и продемонстрировав эффективность своих компонентов через исследования абляции.

Оценка RUBICON

RUBICON оценивает качество разговора для доменно-специфических ассистентов, изучая рубрики для удовлетворения (SAT) и неудовлетворения (DSAT) из размеченных разговоров. Он включает три этапа: генерацию разнообразных рубрик, выбор оптимизированного набора рубрик и оценку разговоров. Рубрики – это утверждения естественного языка, захватывающие атрибуты разговора. Разговоры оцениваются с использованием 5-балльной шкалы Ликерта, нормализованной до диапазона [0, 10]. Генерация рубрик включает надзорное извлечение и суммирование, а выбор оптимизирует рубрики для точности и охвата. Потери корректности и резкости направляют выбор оптимального подмножества рубрик, обеспечивая эффективную и точную оценку качества разговора.

Оценка и выводы

Оценка RUBICON включает три ключевых вопроса: его эффективность по сравнению с другими методами, влияние доменной сенсибилизации (DS) и принципов дизайна разговора (CDP), а также производительность его политики выбора. Результаты показали, что RUBICON превосходит базовые варианты в разделении положительных и отрицательных разговоров и классификации разговоров с высокой точностью, подчеркивая важность инструкций DS и CDP.

Подробности исследования можно найти в оригинальной статье. Вся заслуга за это исследование принадлежит его авторам. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе LinkedIn.

Если вам понравилась наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу на Reddit.

Если вам нужны советы по внедрению ИИ, пишите нам на itinai. Следите за новостями о ИИ в нашем Телеграм-канале itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot itinai.ru/aisales. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

“`

Полезные ссылки: