Простой и эффективный метод для расширения контекста больших языковых моделей

 This AI Paper from China Proposes Continuity-Relativity indExing with gAussian Middle (CREAM): A Simple yet Effective AI Method to Extend the Context of Large Language Models

“`html

Простое и эффективное решение для расширения контекста больших языковых моделей

Большие языковые модели (LLM), такие как трансформеры, обычно предварительно обучаются с фиксированным размером окна контекста, например, 4K токенов. Однако многие приложения требуют обработки гораздо более длинных контекстов, до 256K токенов. Увеличение длины контекста этих моделей представляет определенные вызовы, особенно в обеспечении эффективного использования информации из средней части контекста, часто называемой проблемой “Потерянное посередине”. Существующие методы расширения длины контекста часто требуют обширной донастройки на целевую длину и испытывают затруднения в эффективной обработке информации из средней части контекста.

Решение проблемы

Исследователи из Пекинского института общего искусственного интеллекта (BIGAI), Пекин, Китай, и Национальной ключевой лаборатории общего искусственного интеллекта, Пекин, Китай, представляют CREAM, ContinuityRelativity indExing with gAussian Middle, чтобы решить проблемы расширения окна контекста предварительно обученных LLM. В отличие от текущих методов, CREAM разработан для эффективного расширения LLM на значительно более длинные контексты. Он управляет индексами позиций для интерполяции позиционных кодирований в предварительно обученном размере окна контекста и вводит метод усеченной гауссовой выборки для фокусировки на средней части контекста во время донастройки. Этот подход позволяет модели быть донастроенной в предварительно обученном размере окна, обеспечивая эффективное выполнение на расширенных контекстах до 256K токенов.

Эффективность и результаты

Эксперименты с моделями Llama-2-7B и Llama-2-7B-Chat продемонстрировали эффективность и результативность CREAM. Он расширил окно контекста от 4K до 256K токенов и показал превосходные результаты в задачах понимания длинных контекстов. В частности, CREAM превзошел существующие методы в извлечении информации из длинных контекстов и смягчении проблемы “Потерянное посередине”. Также он достиг перспективных результатов в задачах вопросно-ответной системы и резюмирования длинных контекстов, превзойдя сильные базовые показатели с минимальными шагами донастройки.

Практическое применение

CREAM решает ограничения существующих методов путем эффективного расширения длины контекста LLM, сосредотачиваясь на информации из средней части контекста. Предложенный метод успешно балансирует непрерывность и относительность в позиционном кодировании и использует метод усеченной гауссовой выборки для улучшения понимания среднего содержания. Экспериментальные результаты подтверждают эффективность CREAM в расширении окон контекста и улучшении производительности в сценариях длинных контекстов, предлагая практическое решение проблемы “Потерянное посередине”.

Подробности доступны в статье. Все права на это исследование принадлежат его авторам. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится и наш новостной бюллетень.

Не забудьте присоединиться к нашему подразделу 44k+ ML.

Источник: MarkTechPost.

“`

Полезные ссылки: