Новый метод сжатия больших языковых моделей: SliceGPT

Исследователи из ETH Zurich и Microsoft представили метод SliceGPT для эффективного сжатия больших языковых моделей путем разреженности. Этот подход позволяет значительно уменьшить размер моделей GPT, сохраняя их производительность. #ETHZurich #Microsoft

 Исследователи из ETH Цюриха и Microsoft представили SliceGPT для эффективного сжатия больших языковых моделей через разреженность.

Большие языковые модели, такие как GPT-4, требуют значительных вычислительных мощностей и памяти, что создает вызовы для их эффективного развертывания. Существующие методы сжатия, такие как разреженность, низкоранговая аппроксимация и структурированная обрезка, часто вносят новые сложности и требуют дополнительных структур данных для поддержки разреженных представлений, что усложняет архитектуру системы.

Исследователи из ETH Zurich и Microsoft Research представили метод SliceGPT, который позволяет существенно уменьшить размер сети путем замены каждой матрицы весов более маленькой плотной матрицей. Этот метод позволяет ускорить вывод на меньшем количестве графических процессоров без дополнительной оптимизации кода и использовать вычислительную инвариантность в трансформаторных сетях.

Используя метод SliceGPT, удалось сократить до 25% параметров модели, включая вложения, при сохранении высокой производительности. Это значительно повышает эффективность, позволяя моделям работать на меньшем количестве графических процессоров и достигать более быстрых времен вывода без дополнительной оптимизации кода. Также отмечается, что модели OPT более сжимаемы, чем модели LLAMA-2, и что модели большего размера показывают меньшее снижение точности. SliceGPT обещает значительно сократить требования к ресурсам больших языковых моделей без ущерба для их эффективности.

Метод SliceGPT предоставляет структурированную обрезку больших языковых моделей, что позволяет снизить затраты на вывод и сохранить более высокую производительность по сравнению с методом SparseGPT. При этом существуют возможности для улучшения, такие как исследование комбинированных методов с SparseGPT, улучшение вычислений Q и использование дополнительных методов, таких как квантование и структурная обрезка. Наблюдение за вычислительной инвариантностью в методе SliceGPT может способствовать будущим исследованиям по улучшению эффективности моделей глубокого обучения и вдохновить новые теоретические идеи.

Полезные ссылки: