Token-Shuffle: Как Meta AI Улучшает Эффективность Генерации Изображений с Помощью Искусственного Интеллекта

Meta AI представляет Token-Shuffle: простой подход к снижению числа токенов изображения в трансформерах

Автогенеративные (AR) модели достигли значительного прогресса в генерации языка и все чаще исследуются для синтеза изображений. Однако масштабирование AR моделей для изображений высокого разрешения остается постоянной проблемой. В отличие от текста, где требуется относительно немного токенов, изображения высокого разрешения требуют тысяч токенов, что приводит к квадратичному росту вычислительных затрат. В результате большинство AR-моделей ограничены низким или средним разрешением, что ограничивает их полезность для детальной генерации изображений. Хотя диффузионные модели продемонстрировали высокую эффективность при высоких разрешениях, они имеют свои ограничения, включая сложные процедуры выборки и более медленное время вывода. Решение проблемы эффективности токенов в AR моделях остается важной открытой задачей для обеспечения масштабируемого и практичного синтеза изображений высокого разрешения.

Введение в Token-Shuffle

Meta AI представляет Token-Shuffle, метод, предназначенный для снижения числа токенов изображения, обрабатываемых трансформерами, без изменения основного предсказания следующего токена. Ключевое понимание, лежащее в основе Token-Shuffle, заключается в признании избыточности размерности в визуальных словарях, используемых многомодальными большими языковыми моделями (MLLMs). Визуальные токены, как правило, получаемые из моделей векторной квантизации (VQ), занимают пространства высокой размерности, но имеют более низкую внутреннюю плотность информации по сравнению с текстовыми токенами. Token-Shuffle использует это, объединяя пространственно локальные визуальные токены вдоль размерности канала перед обработкой трансформером и затем восстанавливая оригинальную пространственную структуру после вывода. Этот механизм слияния токенов позволяет AR моделям обрабатывать более высокие разрешения с значительно сниженной вычислительной стоимостью, сохраняя визуальную точность.

Технические детали и преимущества

Token-Shuffle состоит из двух операций: token-shuffle и token-unshuffle. Во время подготовки входных данных пространственно соседние токены объединяются с помощью MLP для формирования сжатого токена, который сохраняет важную локальную информацию. Для размера окна перемешивания s, количество токенов уменьшается в s² раз, что приводит к значительному снижению FLOP трансформера. После слоев трансформера операция token-unshuffle восстанавливает оригинальную пространственную организацию, снова с помощью легковесных MLP.

Результаты и эмпирические данные

Token-Shuffle был оценен на двух основных бенчмарках: GenAI-Bench и GenEval. На GenAI-Bench, используя модель на 2.7B параметров на базе LLaMA, Token-Shuffle достиг VQAScore 0.77 на &; запросах, обойдя другие автогенеративные модели, такие как LlamaGen, на 0.18 и диффузионные модели, такие как LDM, на 0.15. На бенчмарке GenEval он достиг общего балла 0.62, установив новую базу для AR моделей, работающих в дискретном режиме токенов.

Заключение

Token-Shuffle представляет собой простой и эффективный метод для решения ограничений масштабируемости автогенеративной генерации изображений. Используя внутреннюю избыточность в визуальных словарях, он достигает значительного снижения вычислительных затрат при сохранении, а в некоторых случаях даже улучшении качества генерации. Метод полностью совместим с существующими фреймворками предсказания следующего токена, что упрощает его интеграцию в стандартные многомодальные системы на базе AR.

Практические решения для бизнеса

Изучите, как технологии искусственного интеллекта могут преобразовать ваш подход к работе, например, с помощью Token-Shuffle. Рассмотрите возможность автоматизации процессов и выявления моментов в взаимодействии с клиентами, где ИИ может добавить наибольшую ценность. Определите важные KPI, чтобы убедиться, что ваши инвестиции в ИИ действительно оказывают положительное влияние на бизнес. Выберите инструменты, которые соответствуют вашим потребностям и позволяют настраивать их в соответствии с вашими целями. Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.

Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей ИИ, подписывайтесь на наш Telegram https://t.me/itinai.

AI Technology Image

Новости в сфере искусственного интеллекта