Michelangelo: Искусственный интеллект для оценки долгосрочного мышления в больших языковых моделях.

 Michelangelo: An Artificial Intelligence Framework for Evaluating Long-Context Reasoning in Large Language Models Beyond Simple Retrieval Tasks



Michelangelo: Искусственный интеллект для Оценки Долгосрочного Рассуждения в Больших Языковых Моделях за Пределами Простых Задач Поиска

Значимость долгосрочного рассуждения

Важно, чтобы машины могли синтезировать и извлекать актуальные данные из огромных наборов информации, обеспечивая возможность обработки сложных отношений в огромных контекстах. Это необходимо для функций, таких как сжатие документов, генерация кода и анализ крупномасштабных данных, все это является ключевым для развития ИИ.

Проблема измерения понимания долгого контекста

Существующие методы оценки усваивания долгого контекста в больших языковых моделях неэффективны, поскольку фокусируются на изолированных задачах поиска, не способствуя полному оцениванию способности модели усваивать и синтезировать информацию из больших наборов данных.

Новый подход Michelangelo

Фреймворк Michelangelo предлагает новый способ тестирования усваивания долгого контекста в моделях с использованием синтетических данных, обеспечивая проверку на сложные и актуальные задачи. Фокус на понимании долгого контекста через систему Latent Structure Queries позволяет модели раскрывать скрытые структуры внутри большого контекста, отбрасывая ненужную информацию.

Задачи Michelangelo

Фреймворк включает в себя три основные задачи: Latent List, Multi-Round Coreference Resolution (MRCR) и задачу IDK. Они предоставляют детальные инсайты в способность современных моделей обрабатывать долгосрочное рассуждение.

Преимущества Michelangelo

Michelangelo существенно улучшает оценку способности моделей обрабатывать долгий контекст и выявляет различия в работе таких моделей, как GPT-4, Claude 3 и Gemini. Он демонстрирует потенциал моделей Gemini в работе с обширными данными, превосходя другие модели.


Полезные ссылки: