Intel выпустила таблицу лидеров для оценки производительности языковых моделей через 10 ключевых тестов с низкобитовой квантованием.

 Intel Releases a Low-bit Quantized Open LLM Leaderboard for Evaluating Language Model Performance through 10 Key Benchmarks

“`html

Применение квантования больших языковых моделей (LLM) для повышения доступности мощных технологий искусственного интеллекта (ИИ)

Квантование LLM привлекло внимание благодаря своему потенциалу сделать мощные технологии ИИ более доступными, особенно в условиях ограниченных вычислительных ресурсов. Путем снижения вычислительной нагрузки, необходимой для запуска этих моделей, квантование обеспечивает возможность использования передового ИИ в более широком спектре практических сценариев без ущерба для производительности.

Оценка эффективности квантования

Традиционные большие модели требуют значительных ресурсов, что мешает их развертыванию в менее оборудованных средах. Поэтому разработка и совершенствование техник квантования, методов сжатия моделей для уменьшения вычислительных ресурсов без значительной потери точности, является критической.

Для оценки эффективности различных стратегий квантования LLM используются различные инструменты и бенчмарки. Эти бенчмарки охватывают широкий спектр, включая задачи общего знания и рассуждения в различных областях. Они оценивают модели как в нулевых, так и в малых сценариях, изучая, насколько хорошо эти квантованные модели выполняют различные типы когнитивных и аналитических задач без обширной донастройки или с минимальным обучением на примерах, соответственно.

Low-bit Quantized Open LLM Leaderboard

Исследователи из Intel представили Low-bit Quantized Open LLM Leaderboard на платформе Hugging Face. Этот рейтинг предоставляет возможность сравнения производительности различных квантованных моделей с использованием последовательной и строгой системы оценки. Это позволяет исследователям и разработчикам более эффективно измерять прогресс в этой области и определять, какие методы квантования обеспечивают лучший баланс между эффективностью и эффективностью.

Электр AI-Language Model Evaluation Harness

Методика включает в себя строгие испытания через Eleuther AI-Language Model Evaluation Harness, который запускает модели через ряд задач, разработанных для тестирования различных аспектов производительности модели. Задачи включают в себя понимание и генерацию ответов, похожих на человеческие, на основе заданных подсказок, решение проблем в академических предметах, таких как математика и наука, и выявление истин в сложных сценариях вопросов. Модели оцениваются на основе точности и достоверности их выводов по сравнению с ожидаемыми человеческими ответами.

Десять ключевых бенчмарков для оценки моделей на Eleuther AI-Language Model Evaluation Harness:

  1. AI2 Reasoning Challenge (0-shot)
  2. AI2 Reasoning Easy (0-shot)
  3. HellaSwag (0-shot)
  4. MMLU (0-shot)
  5. TruthfulQA (0-shot)
  6. Winogrande (0-shot)
  7. PIQA (0-shot)
  8. Lambada_Openai (0-shot)
  9. OpenBookQA (0-shot)
  10. BoolQ (0-shot)

Выводы

Эти бенчмарки коллективно тестируют широкий спектр навыков рассуждения и общих знаний в нулевых и малых сценариях. Результаты с рейтинга показывают разнообразие производительности различных моделей и задач. Модели, оптимизированные для определенных типов рассуждений или конкретных областей знаний, иногда испытывают трудности с другими когнитивными задачами, что подчеркивает компромиссы, присущие текущим техникам квантования. Например, хотя некоторые модели могут преуспевать в понимании повествования, они могут плохо справляться с областями, требующими больших объемов данных, такими как статистика или логическое рассуждение. Эти расхождения критически важны для направления будущего проектирования моделей и улучшения подходов к обучению.

Источники:

Источник: MarkTechPost


“`

Полезные ссылки: