Новая версия рейтинга Open LLM Leaderboard: обновление с более сложными тестами, справедливой оценкой и улучшенным взаимодействием с сообществом для оценки языковых моделей

 Hugging Face Releases Open LLM Leaderboard 2: A Major Upgrade Featuring Tougher Benchmarks, Fairer Scoring, and Enhanced Community Collaboration for Evaluating Language Models

“`html

Объявление о выпуске Open LLM Leaderboard v2 от Hugging Face: значительное обновление

Hugging Face объявила о выпуске Open LLM Leaderboard v2, значительного обновления, направленного на решение проблем и ограничений предыдущей версии. Новый Leaderboard вводит более строгие бенчмарки, улучшенные методы оценки и более справедливую систему оценки, обещая оживить конкурентную среду для языковых моделей.

Адресация насыщения бенчмарков

За последний год оригинальный Open LLM Leaderboard стал ключевым ресурсом в сообществе машинного обучения, привлекая более 2 миллионов уникальных посетителей и вовлекая 300 000 активных пользователей ежемесячно. Несмотря на успех, растущая производительность моделей привела к насыщению бенчмарков. Модели начали достигать базовой человеческой производительности на бенчмарках, таких как HellaSwag, MMLU и ARC, что снизило их эффективность в различении возможностей моделей. Кроме того, некоторые модели проявили признаки загрязнения, будучи обучены на данных, аналогичных бенчмаркам, что подорвало целостность их оценок.

Введение новых бенчмарков

Для решения этих проблем Open LLM Leaderboard v2 вводит шесть новых бенчмарков, охватывающих различные возможности моделей:

  • MMLU-Pro: улучшенная версия набора данных MMLU, содержащая десять вариантов ответов вместо четырех, требующая большего рассуждения и экспертного обзора для уменьшения шума.
  • GPQA (Google-Proof Q&A Benchmark): высоко сложный набор данных о знаниях, разработанный экспертами в области, с механизмами фильтрации для предотвращения загрязнения.
  • MuSR (Multistep Soft Reasoning): набор данных с алгоритмически созданными сложными задачами, включая детективные и оптимизации распределения команд, для проверки рассуждений и анализа контекста на длинные дистанции.
  • MATH (Mathematics Aptitude Test of Heuristics, Level 5 subset): задачи соревнования уровня старших классов школы, ориентированные на строгую оценку, с акцентом на самые сложные вопросы.
  • IFEval (Instruction Following Evaluation): проверка способности моделей следовать явным инструкциям с использованием строгих метрик для оценки.
  • BBH (Big Bench Hard): подмножество из 23 сложных задач из набора данных BigBench, охватывающее многократные арифметические задачи, алгоритмическое рассуждение и понимание языка.

Более справедливые рейтинги с нормализованной системой оценки

Заметное изменение в новом Leaderboard – это принятие нормализованных оценок для ранжирования моделей. Ранее сырые оценки суммировались, что могло искажать производительность из-за различной сложности бенчмарков. Теперь оценки нормализуются между случайной базовой линией (0 баллов) и максимально возможным баллом (100 баллов). Этот подход обеспечивает более справедливое сравнение между различными бенчмарками, предотвращая излишнее влияние отдельного бенчмарка на окончательное ранжирование.

Например, в бенчмарке с двумя вариантами ответа на вопрос, случайная базовая линия получила бы 50 баллов. Эта сырая оценка будет нормализована до 0, выравнивая оценки между бенчмарками и предоставляя более ясное представление о производительности модели.

Улучшенная воспроизводимость и интерфейс

Hugging Face обновила набор оценочных средств в сотрудничестве с EleutherAI для улучшения воспроизводимости. Обновления включают поддержку дельта-весов (донастройка/адаптация LoRA), новую систему регистрации совместимую с Leaderboard и использование чат-шаблонов для оценки. Кроме того, были проведены ручные проверки всех реализаций для обеспечения согласованности и точности. Интерфейс также значительно улучшен. Благодаря команде Gradio, в частности Фредди Болтону, новый компонент Leaderboard загружает данные на стороне клиента, делая поиск и выбор столбцов мгновенными. Это улучшение обеспечивает пользователям более быстрый и безупречный опыт.

Приоритет моделей, значимых для сообщества

Новый Leaderboard вводит категорию “выбор куратора”, выделяющую модели высокого качества из различных источников, включая крупные компании, стартапы, коллективы и отдельных участников. Этот отобранный список направлен на включение передовых LLM и приоритизацию оценок наиболее полезных моделей для сообщества.

Голосование за значимость моделей

Была введена система голосования для управления большим объемом представленных моделей. Члены сообщества могут голосовать за предпочтительные модели, и те, у которых больше всего голосов, будут приоритизированы для оценки. Эта система обеспечивает оценку наиболее ожидаемых моделей в первую очередь, отражая интересы сообщества.

В заключение, Open LLM Leaderboard v2 от Hugging Face представляет собой значительный этап в оценке языковых моделей. С более сложными бенчмарками, более справедливой системой оценки и улучшенной воспроизводимостью, он стремится расширить границы развития моделей и предоставить более надежные понимание возможностей моделей. Команда Hugging Face оптимистично смотрит в будущее, ожидая продолжения инноваций и улучшений по мере оценки более моделей на этом новом, более строгом Leaderboard.

Проверьте Leaderboard и детали. Вся благодарность за это исследование исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забывайте присоединиться к нашему SubReddit по машинному обучению с более чем 45 тыс. подписчиков.

Статья Hugging Face Releases Open LLM Leaderboard 2: A Major Upgrade Featuring Tougher Benchmarks, Fairer Scoring, and Enhanced Community Collaboration for Evaluating Language Models была опубликована на MarkTechPost.

“`

Полезные ссылки: