Улучшение моделей генерации изображений с помощью искусственного интеллекта: новый подход.

 SELMA: A Novel AI Approach to Enhance Text-to-Image Generation Models Using Auto-Generated Data and Skill-Specific Learning Techniques

Преимущества SELMA в усовершенствовании моделей генерации текста в изображение

Улучшение производительности:

SELMA повысила эффективность моделей T2I на +2,1% по TIFA и +6,9% по DSG.

Эффективная генерация данных:

Авто-сгенерированные наборы данных показали сравнимую производительность с данными, аннотированными вручную.

Метрики предпочтения человека:

Улучшение HPS на 3,7 пункта, а также увеличение PickScore и ImageReward на 0,4 и 0,39 соответственно.

От слабого к сильному обобщению:

Файн-тюнинг с использованием изображений от слабой модели улучшил производительность сильной модели T2I.

Снижение зависимости от ручной аннотации:

SELMA продемонстрировала возможность разработки качественных моделей T2I без обширной ручной аннотации данных.

Полезные ссылки: