Топ-12 популярных рейтингов моделей искусственного интеллекта: руководство по оценке.

 Top 12 Trending LLM Leaderboards: A Guide to Leading AI Models’ Evaluation

“`html

Top 12 Trending LLM Leaderboards: A Guide to Leading AI Models’ Evaluation

Open LLM Leaderboard

Сравнение моделей AI на шести задачах: AI2 Reasoning Challenge, HellaSwag, MMLU, TruthfulQA, Winogrande, and GSM8k. Детальные результаты и характеристики моделей доступны на Hugging Face.

MTEB Leaderboard

Сравнение 33 моделей на восьми задачах и 58 наборах данных в 112 языках для оценки текстовых вложений.

Big Code Models Leaderboard

Сравнение моделей, разработанных для анализа больших объемов кода.

SEAL Leaderboards

Сравнение моделей с использованием рейтинга Elo-scale для оценки их производительности на различных языках.

Berkeley Function-Calling Leaderboard

Оценка моделей на их способность вызывать функции и инструменты.

Occiglot Euro LLM Leaderboard

Оценка моделей на пяти задачах в различных языках.

LMSYS Chatbot Arena Leaderboard

Рейтинг моделей чат-ботов на платформе LMSYS с учетом более миллиона человеческих голосований.

Artificial Analysis LLM Performance Leaderboard

Оценка качества и производительности LLM на серверных API-точках.

Open Medical LLM Leaderboard

Оценка LLM на задачи медицинского вопросно-ответного формата.

Hughes Hallucination Evaluation Model (HHEM) Leaderboard

Оценка частоты галлюцинаций в резюме документов, сгенерированных LLM.

OpenVLM Leaderboard

Результаты оценки 63 моделей Vision-Language на 23 мультимодальных задачах.

“`

Полезные ссылки: