Преимущества SELMA в усовершенствовании моделей генерации текста в изображение
Улучшение производительности:
SELMA повысила эффективность моделей T2I на +2,1% по TIFA и +6,9% по DSG.
Эффективная генерация данных:
Авто-сгенерированные наборы данных показали сравнимую производительность с данными, аннотированными вручную.
Метрики предпочтения человека:
Улучшение HPS на 3,7 пункта, а также увеличение PickScore и ImageReward на 0,4 и 0,39 соответственно.
От слабого к сильному обобщению:
Файн-тюнинг с использованием изображений от слабой модели улучшил производительность сильной модели T2I.
Снижение зависимости от ручной аннотации:
SELMA продемонстрировала возможность разработки качественных моделей T2I без обширной ручной аннотации данных.