Microsoft представила LongRoPE2: революционное решение для расширения контекстных окон языковых моделей до 128K токенов с сохранением точности более 97%

Проблемы и Решения в Моделировании Длинного Контекста

Большие языковые модели (LLMs) достигли значительного прогресса, однако основная проблема заключается в их неспособности эффективно обрабатывать длительные контекстные последовательности. Хотя такие модели, как GPT-4o и LLaMA3.1, поддерживают контекстные окна до 128K токенов, поддержание высокой производительности на больших длинах остаётся сложной задачей.

Проблемы с Расширением Контекстных Окон

Существующие методы расширения контекстных окон в основном полагаются на эвристическую переработку позиционных эмбеддингов (RoPE), что не решает проблемы выхода за пределы их предварительного обучения и часто не достигает целевой эффективной длины контекста.

Решение: LongRoPE2

Исследователи Microsoft разработали LongRoPE2 для преодоления этих ограничений. LongRoPE2 предназначен для расширения контекстного окна LLM до 128K токенов при сохранении более 98.5% точности при коротком контексте. Это достигается за счёт решения трёх основных задач.

Первый шаг: Оценка Перплексии

LongRoPE2 вводит оценку глубокой перплексии (PPL), которая выделяет токены, требующие глубокого контекстуального понимания.

Второй шаг: Эволюционное Поиск для Ресайзинга

LongRoPE2 использует алгоритм эволюционного поиска для оптимизации коэффициентов переработки, обеспечивая лучшую адаптацию к расширенным контекстам.

Третий шаг: Обучение с Учётом Разных Контекстов

Модель дополнительно обучается на коротких и длинных последовательностях, что предотвращает потерю производительности при коротком контексте.

Результаты и Преимущества LongRoPE2

LongRoPE2 демонстрирует выдающиеся результаты во многих бенчмарках, сохраняя высокую точность и эффективность. Например, на бенчмарке RULER LongRoPE2 показал результат 82.03, что значительно выше, чем у других подходов.

Ключевые Выводы Исследования

  • LongRoPE2 успешно расширяет LLaMA3-8B до 128K токенов с точностью 82.03%.
  • Эффективность обучения: LongRoPE2 использует 10B токенов вместо 800B, что делает его в 80 раз более эффективным.
  • Сохранение 97.6% производительности при коротком контексте.
  • Введение оценки перплексии для прецизионного определения коэффициентов переработки RoPE.

Практическое Применение Искусственного Интеллекта

Изучите, как технологии ИИ могут трансформировать ваш подход к работе. Определите важные ключевые показатели эффективности (KPI) и выберите инструменты, которые соответствуют вашим целям.

Свяжитесь с Нами

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru.