Itinai.com two developers coding side by side in a minimalist 9e46852c 56ad 43df b8ce 5a8451c13b63 3
Itinai.com two developers coding side by side in a minimalist 9e46852c 56ad 43df b8ce 5a8451c13b63 3

АНСЕ: Новая методика повышения качества видео генерации на основе текста от Samsung

Введение в ANSE

Исследователи Samsung представили ANSE — новую модель, направленную на улучшение генерации видео на основе текстовых подсказок. Эта модель использует методы оценки неопределенности, основанные на внимании, для повышения качества создания видео.

Проблема генерации видео

Современные модели генерации видео преобразуют текстовые подсказки в высококачественные видеопоследовательности. Однако, несмотря на достижения в архитектуре, остается проблема: качество видео может значительно варьироваться в зависимости от начального случайного шума. Это подчеркивает необходимость в более умных стратегиях выбора шума, чтобы избежать непредсказуемых результатов и лишних вычислительных затрат.

Представление ANSE

Команда исследователей Samsung разработала ANSE (Активный выбор шума для генерации), который использует внутренние сигналы модели для выбора начального шума при генерации видео. В основе ANSE лежит BANSA (Байесовский активный выбор шума с использованием внимания), новая функция, оценивающая согласованность и уверенность карт внимания модели.

Как работает BANSA

BANSA анализирует энтропию карт внимания, полученных на ранних этапах денойзинга. Исследователи обнаружили, что определенные слои моделей обеспечивают достаточную корреляцию с полными оценками неопределенности, что значительно снижает вычислительные затраты. Рейтинг кандидатов на выбор шума определяется с помощью BANSA, и выбирается тот, который имеет наименьший показатель.

Показатели производительности

На модели CogVideoX-2B общий балл VBench улучшился с 81.03 до 81.66 (+0.63), при этом качество увеличилось на +0.48, а семантическое соответствие — на +1.23. На более крупной модели CogVideoX-5B ANSE повысил общий балл VBench с 81.52 до 81.71 (+0.25), с увеличением качества на +0.17 и семантического соответствия на +0.60.

Преимущества ANSE

  • Улучшение общего балла VBench для генерации видео.
  • Модестное увеличение времени вывода: +8.68% для CogVideoX-2B и +13.78% для CogVideoX-5B.
  • BANSA показывает лучшие результаты по сравнению с случайными и основанными на энтропии методами выбора шума.
  • Эффективная стратегия выбора слоев снижает вычислительную нагрузку.

Заключение

В результате исследования была представлена модель, использующая внутренние сигналы внимания для решения проблемы непредсказуемой генерации видео. Используя BANSA для оценки неопределенности, исследователи предложили эффективный метод для повышения качества видео и семантического соответствия в моделях текст-видео.

Практические рекомендации для бизнеса

Изучите, как технологии искусственного интеллекта могут трансформировать ваш подход к работе. Обратите внимание на процессы, которые можно автоматизировать, и моменты взаимодействия с клиентами, где ИИ может добавить наибольшую ценность.

Определите важные KPI, чтобы убедиться, что ваши инвестиции в ИИ положительно влияют на бизнес. Выберите инструменты, которые соответствуют вашим потребностям, и настройте их под ваши цели.

Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе. Если вам нужна помощь в управлении ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru.

Для получения последних новостей об ИИ подписывайтесь на наш Telegram: https://t.me/itinai.

Пример решения на основе ИИ

Посмотрите практический пример решения на основе ИИ: бот продаж от https://itinai.ru/aisales, предназначенный для автоматизации взаимодействия с клиентами и управления взаимодействиями на всех этапах пути клиента.

ИИ Бизнес-инкубатор itinai.ru будет работать на вас. Получите свой цифровой продукт и готовую модель дохода

ИИ-агенты интеллектуальная автоматизация бизнеса

Готовые ИТ — решения для бизнеса

Новости в сфере искусственного интеллекта