Языковая модель Prometheus 2: оценка других языковых моделей, близкая к человеческой и GPT-4

 Prometheus 2: An Open Source Language Model that Closely Mirrors Human and GPT-4 Judgements in Evaluating Other Language Models

“`html

Проблема в оценке языковых моделей и решение Prometheus 2

Естественная обработка языка (NLP) стремится к тому, чтобы компьютеры могли понимать и взаимодействовать на человеческом языке. Одной из критических проблем в NLP является оценка языковых моделей (LM), которые генерируют ответы на различные задачи. Разнообразие этих задач затрудняет эффективную оценку качества ответов. С развитием сложных языковых моделей, таких как GPT-4, собственные модели часто обладают сильными возможностями оценки, но страдают от прозрачности, контроля и проблем стоимости. Это требует разработки надежных альтернатив с открытым исходным кодом, способных эффективно оценивать языковые выводы без ущерба для этих аспектов.

Решение Prometheus 2

Проект Prometheus 2 представляет собой новаторский открытый оценщик, разработанный для оценки языковых моделей. Он был создан путем объединения двух оценочных LM: один обучен исключительно для прямой оценки, а другой для попарного ранжирования. Объединение этих моделей создало единый оценщик, который отлично справляется с обеими формами оценки. Исследователи использовали новый набор данных Preference Collection, включающий 1 000 критериев оценки, чтобы дополнительно усовершенствовать возможности модели. Путем эффективного объединения двух форм обучения Prometheus 2 может оценивать ответы LM с использованием прямой оценки и методов попарного ранжирования. Объединенная модель использует линейный подход к объединению сильных сторон обеих форм оценки, достигая высокой производительности в различных задачах оценки.

Модель продемонстрировала высшую корреляцию с человеческими и собственными оценщиками в бенчмаркинговых тестах на четырех прямых оценочных бенчмарках: Vicuna Bench, MT Bench, FLASK и Feedback Bench. Коэффициенты корреляции превысили 0,5 на всех бенчмарках, достигнув 0,878 и 0,898 на Feedback Bench для моделей 7B и 8x7B соответственно. На четырех бенчмарках попарного ранжирования, включая HHH Alignment, MT Bench Human Judgment, Auto-J Eval и Preference Bench, Prometheus 2 превзошел существующие модели с открытым исходным кодом, достигнув точности более 85%. Preference Bench, тестовый набор для Prometheus 2, показал устойчивость и универсальность модели.

Prometheus 2 сократил разрыв в производительности с собственными оценщиками, такими как GPT-4, на различных бенчмарках. Модель уменьшила разницу в корреляции между людьми и GPT-4 на бенчмарке FLASK и достигла точности 84% в оценках HHH Alignment. Это подчеркивает значительный потенциал открытых оценщиков для замены дорогих собственных решений, обеспечивая при этом всестороннюю и точную оценку.

В заключение, недостаток прозрачных, масштабируемых и адаптивных оценщиков языковых моделей, отражающих человеческие суждения, представляет собой значительное препятствие в NLP. Исследователи разработали Prometheus 2, новаторский открытый оценщик, чтобы решить эту проблему. Они использовали линейный подход к объединению двух моделей, обученных отдельно на прямую оценку и попарное ранжирование. Эта объединенная модель превзошла предыдущие модели с открытым исходным кодом в бенчмаркинговых тестах, продемонстрировав высокую точность и корреляцию, существенно сократив разрыв в производительности с собственными моделями. Prometheus 2 представляет собой значительный прогресс в области открытой оценки, предлагая надежную альтернативу собственным решениям.

Проверьте статью и Github. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.

Применение ИИ в вашем бизнесе

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте Prometheus 2: An Open Source Language Model that Closely Mirrors Human and GPT-4 Judgements in Evaluating Other Language Models.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru будущее уже здесь!

“`

Полезные ссылки: