Исследование Cohere: Оценка моделей с использованием большого числа языковых моделей

 This AI Research from Cohere Discusses Model Evaluation Using a Panel of Large Language Models Evaluators (PoLL)

“`html

Использование панели оценщиков больших языковых моделей (PoLL) для оценки моделей искусственного интеллекта

Большие языковые модели (LLM) развиваются с большой скоростью в последнее время. Однако одной из основных проблем является недостаток данных для тщательной проверки конкретных особенностей этих моделей. Дополнительный уровень сложности возникает при оценке точности и качества производства свободного текста моделью самой по себе.

Решение проблемы

Для решения этих проблем сейчас часто используют оценку LLM в качестве судей для оценки качества результатов, полученных другими LLM. Этот метод часто использует одну огромную модель для оценки, такую как GPT-4. Однако у этого подхода есть недостатки, включая высокие затраты, возможность внутримодельного искажения и осознание того, что очень большие модели могут быть необязательны.

В ответ на эти проблемы была предложена другая стратегия – оценка модели с использованием панели оценщиков LLM (PoLL). Вместо того чтобы полагаться только на одну огромную модель, эта идея использует несколько более маленьких LLM в качестве судей. Архитектура PoLL состоит из различных более маленьких LLM, которые работают вместе для оценки качества вывода в целом.

Практические решения и ценность

Исследователи использовали шесть различных наборов данных и три различных настройки судей, чтобы продемонстрировать эффективность PoLL. Результаты показали, что использование PoLL, коллекции нескольких более маленьких LLM, работает лучше, чем полагаться только на одного большого судью. Это превосходство объясняется следующим:

  • Снижение внутримодельного искажения: Собирая несколько более маленьких моделей из различных семей моделей в PoLL, уменьшается искажение, возникающее из полного полагания на одну большую модель.
  • Эффективность в затратах: Использование PoLL предлагает экономическое преимущество более чем в семь раз по сравнению с полаганием на одну большую LLM для оценки.

Эта уникальная система оценки использует панель оценщиков LLM для решения практических проблем искажения и затрат, а также для улучшения производительности. Этот метод подчеркивает возможность использования совместных оценок от гетерогенной группы более маленьких моделей для получения более точных и экономически выгодных оценок LLM.

Основные выводы и рекомендации

Команда суммировала свои основные вклады следующим образом:

  • Предложена архитектура PoLL, которая предлагает уникальный способ оценки больших языковых моделей, а именно панель оценщиков LLM (PoLL), отобранных из различных семей моделей.
  • Результаты показали, что использование PoLL является более экономически эффективным и коррелирует более тесно с оценками людей, чем использование одного большого судьи, например, GPT-4.
  • Также были выявлены ситуации, в которых GPT-4 значительно отклоняется от нормы в терминах оценок, даже при незначительном изменении подсказок.
  • Подход PoLL успешно снижает внутримодельные искажения оценок путем объединения мнений из разнообразной панели моделей-оценщиков.

Подробнее см. статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему 40k+ ML SubReddit.

Этот исследовательский материал от Cohere обсуждает использование панели оценщиков больших языковых моделей (PoLL) для оценки моделей искусственного интеллекта. Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте этот метод.

Практическое применение ИИ

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI. Определитесь, какие ключевые показатели эффективности (KPI) вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI. На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на Telegram. Следите за новостями о ИИ в нашем Телеграм-канале или в Twitter.

Попробуйте AI Sales Bot. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab. Будущее уже здесь!

“`

Полезные ссылки: