Itinai.com it company office background blured photography by 2f4c6499 6d9f 413b 8dd8 10c4ad53e96c 2
Itinai.com it company office background blured photography by 2f4c6499 6d9f 413b 8dd8 10c4ad53e96c 2

Исследователи Apple предложили метод Cut Cross-Entropy для вычисления потерь без хранения логитов в памяти.

Легче сразу спросить 💭

AI снижает операционные расходы на 20–40% 📊 за 6 месяцев. А что бы вы сделали с этими деньгами?

Опишите задачу — обсудим, как это можно реализовать у вас.

ИИ автоматизирует 70% рутинных задач 🤖 за 3 месяца. Какие процессы в вашем бизнесе скинуть роботу?
Персонализированные AI-кампании увеличивают клиентскую базу на 30% 📈. Как это работает?
AI-аналитика сокращает ошибки в прогнозах на 50% 📉. Расскажите подробнее!
 Apple Researchers Propose Cut Cross-Entropy (CCE): A Machine Learning Method that Computes the Cross-Entropy Loss without Materializing the Logits for all Tokens into Global Memory

«`html

Прорыв в обработке естественного языка с помощью CCE

Развитие больших языковых моделей (LLM) изменило подход к обработке естественного языка. Эти модели используются для генерации текста, перевода и резюмирования. Однако, их обучение требует значительных вычислительных ресурсов и памяти.

Проблемы с памятью

Вычисление перекрестной энтропии, важное для точности модели, создает серьезные проблемы с памятью. Например, в модели Gemma 2 (2B) это может занимать до 24 ГБ памяти, что ограничивает размер пакетов данных и снижает производительность.

Новые решения от Apple

Исследователи Apple разработали метод Cut Cross-Entropy (CCE), который решает проблемы с памятью. Вместо хранения всех логитов в памяти, CCE динамически вычисляет только необходимые логиты, что значительно уменьшает использование памяти. Например, в модели Gemma 2 использование памяти для вычисления потерь сократилось с 24 ГБ до всего 1 МБ.

Как работает CCE

Метод CCE использует специальные CUDA-ядра для обработки данных и оптимизации вычислений. Он избегает хранения промежуточных данных, что делает процесс быстрее и эффективнее. Также используется фильтрация градиентов для пропуска незначительных вычислений.

Преимущества CCE

  • Существенное снижение памяти: Использование CCE позволяет сократить потребление памяти до 1 МБ для крупных моделей.
  • Увеличение масштабируемости: Метод поддерживает большие размеры пакетов, что позволяет более эффективно использовать вычислительные ресурсы.
  • Эффективность: Специальные ядра и фильтрация градиентов обеспечивают быструю работу без потери качества.
  • Практическое применение: CCE можно адаптировать для различных архитектур и задач, включая классификацию изображений.
  • Будущее: Метод CCE открывает возможности для обучения еще более крупных моделей.

Заключение

Метод CCE представляет собой значительный прорыв в обучении больших языковых моделей, устраняя проблемы с памятью. Инновационные техники, такие как динамическое вычисление логитов и фильтрация градиентов, позволяют значительно сократить использование памяти без ущерба для скорости и точности.

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ), используйте метод CCE для повышения эффективности.

Для получения советов по внедрению ИИ, пишите нам в Telegram. Следите за новостями о ИИ в нашем Telegram-канале или в Twitter.

Попробуйте AI Sales Bot на itinai.ru — этот AI ассистент помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.

«`

Полезные ссылки:

Новости в сфере искусственного интеллекта