“`html
Top 12 Trending LLM Leaderboards: A Guide to Leading AI Models’ Evaluation
Open LLM Leaderboard
Сравнение моделей AI на шести задачах: AI2 Reasoning Challenge, HellaSwag, MMLU, TruthfulQA, Winogrande, and GSM8k. Детальные результаты и характеристики моделей доступны на Hugging Face.
MTEB Leaderboard
Сравнение 33 моделей на восьми задачах и 58 наборах данных в 112 языках для оценки текстовых вложений.
Big Code Models Leaderboard
Сравнение моделей, разработанных для анализа больших объемов кода.
SEAL Leaderboards
Сравнение моделей с использованием рейтинга Elo-scale для оценки их производительности на различных языках.
Berkeley Function-Calling Leaderboard
Оценка моделей на их способность вызывать функции и инструменты.
Occiglot Euro LLM Leaderboard
Оценка моделей на пяти задачах в различных языках.
LMSYS Chatbot Arena Leaderboard
Рейтинг моделей чат-ботов на платформе LMSYS с учетом более миллиона человеческих голосований.
Artificial Analysis LLM Performance Leaderboard
Оценка качества и производительности LLM на серверных API-точках.
Open Medical LLM Leaderboard
Оценка LLM на задачи медицинского вопросно-ответного формата.
Hughes Hallucination Evaluation Model (HHEM) Leaderboard
Оценка частоты галлюцинаций в резюме документов, сгенерированных LLM.
OpenVLM Leaderboard
Результаты оценки 63 моделей Vision-Language на 23 мультимодальных задачах.
“`