Исследователи Apple предложили метод Cut Cross-Entropy для вычисления потерь без хранения логитов в памяти.

 Apple Researchers Propose Cut Cross-Entropy (CCE): A Machine Learning Method that Computes the Cross-Entropy Loss without Materializing the Logits for all Tokens into Global Memory

“`html

Прорыв в обработке естественного языка с помощью CCE

Развитие больших языковых моделей (LLM) изменило подход к обработке естественного языка. Эти модели используются для генерации текста, перевода и резюмирования. Однако, их обучение требует значительных вычислительных ресурсов и памяти.

Проблемы с памятью

Вычисление перекрестной энтропии, важное для точности модели, создает серьезные проблемы с памятью. Например, в модели Gemma 2 (2B) это может занимать до 24 ГБ памяти, что ограничивает размер пакетов данных и снижает производительность.

Новые решения от Apple

Исследователи Apple разработали метод Cut Cross-Entropy (CCE), который решает проблемы с памятью. Вместо хранения всех логитов в памяти, CCE динамически вычисляет только необходимые логиты, что значительно уменьшает использование памяти. Например, в модели Gemma 2 использование памяти для вычисления потерь сократилось с 24 ГБ до всего 1 МБ.

Как работает CCE

Метод CCE использует специальные CUDA-ядра для обработки данных и оптимизации вычислений. Он избегает хранения промежуточных данных, что делает процесс быстрее и эффективнее. Также используется фильтрация градиентов для пропуска незначительных вычислений.

Преимущества CCE

  • Существенное снижение памяти: Использование CCE позволяет сократить потребление памяти до 1 МБ для крупных моделей.
  • Увеличение масштабируемости: Метод поддерживает большие размеры пакетов, что позволяет более эффективно использовать вычислительные ресурсы.
  • Эффективность: Специальные ядра и фильтрация градиентов обеспечивают быструю работу без потери качества.
  • Практическое применение: CCE можно адаптировать для различных архитектур и задач, включая классификацию изображений.
  • Будущее: Метод CCE открывает возможности для обучения еще более крупных моделей.

Заключение

Метод CCE представляет собой значительный прорыв в обучении больших языковых моделей, устраняя проблемы с памятью. Инновационные техники, такие как динамическое вычисление логитов и фильтрация градиентов, позволяют значительно сократить использование памяти без ущерба для скорости и точности.

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ), используйте метод CCE для повышения эффективности.

Для получения советов по внедрению ИИ, пишите нам в Telegram. Следите за новостями о ИИ в нашем Telegram-канале или в Twitter.

Попробуйте AI Sales Bot на itinai.ru — этот AI ассистент помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.

“`

Полезные ссылки: