“`html
Диффузионные модели как мощный инструмент в различных областях
Диффузионные модели стали мощными инструментами в различных областях, таких как генерация изображений и трехмерных объектов. Их успех обусловлен способностью эффективно обрабатывать задачи удаления шума различных типов, превращая случайный шум в целевое распределение данных через повторяющиеся этапы удаления шума. Используя структуры на основе трансформаторов, было показано, что увеличение числа параметров обычно улучшает производительность. Однако обучение и запуск этих моделей стоят дорого из-за их плотных глубоких сетей, что приводит к высоким вычислительным затратам при их масштабировании.
Текущие методы и практические решения
Нынешний метод, Условное вычисление, представляет собой многообещающую технику масштабирования, которая направлена на увеличение емкости модели, сохраняя при этом постоянные затраты на обучение и вывод. Это достигается за счет использования только подмножества параметров для каждого примера. Еще один метод, Смесь экспертов (MoEs), объединяет результаты подмоделей или экспертов через зависящий от входа маршрутизатор и успешно применяется в различных областях. В области обработки естественного языка было предложено использование воротного управления top-k в LSTMs, а также вспомогательных потерь для сохранения баланса экспертов. Наконец, в MoEs для диффузионных моделей были проведены исследования с использованием нескольких экспертных моделей, каждая из которых сфокусирована на определенном диапазоне временных шагов.
Исследователи из Kunlun Inc. Пекин, Китай, предложили DiT-MoE, новую версию архитектуры DiT для генерации изображений. DiT-MoE модифицирует некоторые плотные слои прямого распространения в DiT, заменяя их разреженными слоями MoE. В этих слоях каждый токен изображения направляется в определенное подмножество экспертов, которые представляют собой слои MLP. Более того, архитектура включает два основных дизайна: один из них заключается в использовании общей части экспертов для захвата общих знаний, а второй – в сбалансированной потере экспертов для снижения избыточности в различных маршрутизированных экспертах.
Оптимизация и оценка производительности
Оптимизатор AdamW используется без весового десятилетия на всех наборах данных с постоянной скоростью обучения. Во время обучения используется экспоненциальное скользящее среднее (EMA) весов DiT-MoE с коэффициентом затухания 0.9999, и результаты основаны на этой модели EMA. Предлагаемые модели обучаются на графическом процессоре Nvidia A100 с использованием набора данных ImageNet различных разрешений. Кроме того, во время обучения применяются техники классификатора-без руководства, а также используется предварительно обученная модель вариационного автокодировщика от Stabile Diffusion на huggingface2. Производительность генерации изображений оценивается с использованием расстояния Фрешера-Инцепшена (FID), общепринятой метрики для оценки качества сгенерированных изображений.
Оценка результатов
Результаты оценки условной генерации изображений по различным метрикам показывают отличную производительность по сравнению с плотными конкурентами. На классно-условном наборе данных ImageNet 256×256 модель DiT-MoE достигает значения FID в 1.72, превосходя все предыдущие модели с различными архитектурами. Кроме того, DiT-MoE использует всего 1,5 миллиарда параметров и значительно превосходит конкурентов на основе трансформеров, таких как Large-DiT-3B, Large-DiT-7B и LlamaGen-3B. Это показывает потенциал MoE в диффузионных моделях. Подобные улучшения наблюдаются почти во всех оценочных метриках на классно-условном наборе данных ImageNet 512×512.
Заключение
Исследователи разработали DiT-MoE, обновленную версию архитектуры DiT для генерации изображений. DiT-MoE улучшает некоторые плотные слои прямого распространения в DiT, заменяя их разреженными слоями MoE. Этот метод использует разреженное условное вычисление для обучения больших диффузионных трансформаторных моделей, что приводит к эффективному выводу и значительному улучшению задач генерации изображений. Также используются простые дизайны для эффективного использования разреженности модели на основе входных данных. Эта статья представляет собой начало исследования условного вычисления крупного масштаба для диффузионных моделей. Дальнейшие работы включают обучение более стабильных и быстрых экспертных архитектур разной природы и улучшение дистилляции знаний.
Прочитать статью и посетить GitHub. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter и присоединиться к нашим Telegram-каналу и группе LinkedIn. Если вам понравилась наша работа, вам понравится и наш бюллетень.
Не забудьте присоединиться к нашему подразделу ML на Reddit.
Ищите предстоящие вебинары по ИИ здесь.
Этот пост был опубликован на MarkTechPost.
Как использовать DiT-MoE для вашего бизнеса
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте DiT-MoE: A New Version of the DiT Architecture for Image Generation .
Практические рекомендации
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI. Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI. На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.
Попробуйте AI Sales Bot. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!
“`