LongAlign: рецепт для выравнивания длинных контекстов на основе данных, обучения и оценки.

 Статья об искусственном интеллекте предлагает LongAlign: рецепт для выравнивания длинных контекстов на основе данных, обучения и оценки.

 

Исследование предлагает новый подход, сосредотачиваясь на выравнивании длинного контекста, в частности, на настройке языковых моделей для интерпретации длинных запросов пользователей. Основные проблемы включают отсутствие обширных наборов данных для контролируемой настройки, трудности в обработке эффективно разнообразных распределений длин на нескольких графических процессорах и необходимость в надежных бенчмарках для оценки способностей моделей на реальных запросах. Цель – улучшить способность LLM обрабатывать расширенные контексты путем настройки на основе подобных длин входных последовательностей.

Исследователи из университета Цинхуа и Zhipu.AI разработали LongAlign, комплексный подход для эффективной обработки длинных контекстов LLM. Они создают разнообразный длинный набор данных для выполнения инструкций с использованием Self-Instruct, охватывающий задачи из различных источников. Для решения проблем обучения из-за разнообразных распределений длин они используют стратегии упаковки и сортированные пакеты, а также метод взвешивания потерь для балансирования вкладов. Они также представляют LongBench-Chat – оценочный бенчмарк, включающий вопросы от 10 тыс. до 100 тыс. символов.

Увеличение длины контекста направлено на расширение длины контекста существующих LLM для обработки задач с длинным контекстом. Методы делятся на две категории: требующие настройки на более длинные последовательности и не требующие. Методы без настройки используют механизмы слайдингового окна внимания или сжатие токенов, но не соответствуют производительности при настройке. Методы с настройкой включают расширение кодирования позиций и постоянное повторное обучение. Выравнивание модели с данными для выполнения инструкций, названное контролируемой настройкой, критично для эффективного взаимодействия в чат-интерфейсах. Основные проблемы включают в себя методы данных, обучения и оценки. Хотя некоторые работы предоставляют длинные инструкционные данные, требуется более тщательный анализ.

Рецепт LongAlign предлагает комплексный подход для эффективной обработки длинных контекстов в LLM. Он включает создание разнообразного длинного набора данных для выполнения инструкций с использованием Self-Instruct, использование эффективных стратегий обучения, таких как упаковка и сортированные пакеты, и введение оценочного бенчмарка LongBench-Chat. LongAlign решает проблемы с помощью метода взвешивания потерь во время обучения, что позволяет балансировать вклады потерь для различных последовательностей. Исследования показывают, что упаковка и сортированные пакеты улучшают эффективность обучения вдвое, сохраняя при этом хорошую производительность, а метод взвешивания потерь значительно улучшает производительность на длинных инструкционных задачах во время упаковки.

Эксперименты показывают, что LongAlign улучшает производительность LLM на задачах с длинным контекстом до 30%, сохраняя при этом профессионализм на коротких задачах. Они также обнаружили, что количество и разнообразие данных значительно влияют на производительность, а длинные инструкционные данные улучшают производительность задач с длинным контекстом без влияния на обработку коротких контекстов. Стратегии обучения ускоряют обучение без ухудшения производительности, а метод взвешивания потерь дополнительно улучшает производительность на задачах с длинным контекстом на 10%. LongAlign достигает улучшенной производительности на задачах с длинными инструкциями благодаря стратегиям упаковки и сортированных пакетов, удваивающим эффективность обучения, сохраняя при этом хорошую производительность.

В заключение, исследование нацелено на оптимизацию выравнивания длинного контекста, сосредотачиваясь на данных, методах обучения и оценки. LongAlign использует Self-Instruct для создания разнообразных данных выполнения длинных инструкций и эффективной настройки моделей через упаковку, взвешивание потерь или сортированные пакеты. Оценочный бенчмарк LongBench-Chat оценивает способность выполнения инструкций в практических ситуациях с длинным контекстом. Контролируемые эксперименты выделяют важность количества данных, их разнообразия и подходящих методов обучения для достижения оптимальной производительности. LongAlign превосходит существующие методы на 30% в задачах длинного контекста, сохраняя профессионализм в коротких задачах. Открытое распространение моделей, кода и данных LongAlign способствует дальнейшим исследованиям и исследованиям в этой области.

Если вам нужны рекомендации по управлению ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.com. Чтобы быть в курсе последних новостей об ИИ, подписывайтесь на наш Telegram-канал t.me/itinairu.

Посмотрите на практический пример решения на основе ИИ: бот для продаж от itinai.ru/aisales, созданный для автоматизации общения с клиентами круглосуточно и управления взаимодействием на всех этапах пути клиента.

Изучите, как искусственный интеллект может улучшить ваши продажи и общение с клиентами. Познакомьтесь с нашими решениями на сайте itinai.ru.

 

Полезные ссылки: