Основы моделей человеческого зрения: представление Мета Сапиенс

 Meta Presents Sapiens: Foundation for Human Vision Models

“`html

Революция в области компьютерного зрения: ввод Sapiens

Преимущества широкомасштабного предварительного обучения и тонкой настройки под конкретную задачу

Большое предварительное обучение, а затем точная настройка под конкретные задачи, изменили моделирование языка и теперь трансформируют компьютерное зрение. Экстенсивные наборы данных, такие как LAION-5B и JFT-300M, позволяют предварительное обучение за пределами традиционных бенчмарков, расширяя возможности визуального обучения. Значимые модели, такие как DINOv2, MAWS и AIM, сделали значительные шаги в генерации свойств самонаблюдаемых признаков и масштабирования маскированного автокодировщика. Однако существующие методы часто не учитывают человеко-центрические подходы, фокусируясь в основном на общем предварительном обучении изображений или классификации без обучения.

Человеко-центрическое предварительное обучение

Наша новая работа представляет Sapiens – коллекцию моделей трансформера высокого разрешения, предварительно обученных на миллионах изображений людей. В отличие от предыдущих работ, которые не масштабировали трансформеры зрения в той же степени, что и большие языковые модели, Sapiens устраняет этот пробел, используя набор данных Humans-300M. Этот разнообразный набор из 300 миллионов изображений людей позволяет изучать влияние распределения данных предварительного обучения на конкретные задачи, связанные с людьми. Подчеркивая человеко-центрическое предварительное обучение, Sapiens стремится продвигать область компьютерного зрения в таких областях, как цифровизация 3D-человека, оценка ключевых точек и сегментация частей тела, что критически важно для реальных приложений.

Эффективная методология Sapiens

Мы предлагаем новый подход к человеко-центрическому компьютерному зрению через Sapiens – семейство моделей трансформера зрения. Этот подход объединяет масштабное предварительное обучение на изображениях людей с высококачественной аннотацией, достигая надежной обобщенности, широкой применимости и высокой степени подлинности в реальных сценариях. Методология использует простую кураторскую работу с данными и предварительное обучение, обеспечивая значительное улучшение производительности. Sapiens поддерживает вывод с высокой точностью на разрешении 1K, достигая передовых результатов на различных бенчмарках. Как потенциальная основная модель для последующих задач, Sapiens демонстрирует эффективность предварительного обучения в области компьютерного зрения, с возможностью дальнейшей работы с 3D и мультимодальными наборами данных.

Многоаспектная методология Sapiens

Модели Sapiens используют многоаспектную методологию, фокусирующуюся на масштабном предварительном обучении, высококачественной аннотации и архитектурных инновациях. Этот подход использует куратированный набор данных для задач, связанных с людьми, подчеркивая точные аннотации с 308 ключевыми точками для оценки позы и 28 классами сегментации. Архитектурное проектирование приоритизирует масштабирование по ширине, улучшая производительность без значительного увеличения вычислительных затрат. Методология включает убывание скорости обучения на уровне слоя и оптимизацию весового затухания. Он подчеркивает обобщение в различных средах и использует синтетические данные для оценки глубины и нормали. Это стратегическое сочетание создает надежные модели, способные эффективно выполнять разнообразные задачи, связанные с людьми, в реальных сценариях, решая проблемы в существующих общедоступных бенчмарках и повышая адаптивность модели.

Полная оценка эффективности Sapiens

Модели Sapiens прошли комплексную оценку по четырем основным задачам: оценка позы, сегментация частей, оценка глубины и оценка нормали. Предварительное обучение на наборе данных Human 300M привело к превосходной производительности по всем метрикам. Результаты были количественно оценены с использованием mAP для оценки позы, mIoU для сегментации, RMSE для оценки глубины и средней угловой ошибки для оценки нормали. Увеличение размера набора данных предварительного обучения последовательно улучшало производительность, демонстрируя корреляцию между разнообразием данных и обобщением модели. Модели проявляли устойчивые способности к обобщению в различных сценариях реального мира. В целом, Sapiens продемонстрировал сильную производительность во всех оцененных задачах, причем улучшения были связаны с качеством и количеством данных предварительного обучения. Эти результаты подтверждают эффективность методологии Sapiens в создании точных и обобщенных моделей визуального восприятия человека.

Заключение

Sapiens представляет собой значительный прогресс в области моделей визуального восприятия человека, демонстрируя сильную обобщенность в различных задачах. Его исключительная производительность происходит от масштабного предварительного обучения на куратированном наборе данных, высокоразрешающих моделей трансформера зрения и высококачественной аннотации. Расположенный в качестве основного элемента для последующих задач, Sapiens делает высококачественные визионные основы более доступными. Дальнейшая работа может расшириться на 3D и мультимодальные наборы данных. Исследование подчеркивает, что сочетание специфического для области масштабного предварительного обучения с ограниченной высококачественной аннотацией приводит к надежной обобщенности в реальном мире, уменьшая необходимость в обширных наборах аннотаций. Таким образом, Sapiens становится трансформационной моделью в области визуального восприятия человека, предлагая значительный потенциал для будущих исследований и применений.

Подробнее о работе. Вся заслуга за это исследование принадлежит исследователям проекта. Также не забудьте подписаться на нас в Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится и наш информационный бюллетень.

Не забудьте присоединиться к нашему SubReddit с 49 тыс. подписчиков

Узнайте о предстоящих вебинарах по ИИ здесь

Компания Meta представляет Sapiens: основу для моделей визуального восприятия человека.

Проанализируйте, как ИИ может изменить вашу работу.

Определите, где возможно применение автоматизации и где ваши клиенты могут извлечь выгоду из ИИ.

Определитесь, какие ключевые показатели эффективности вы хотите улучшить с помощью ИИ.

Подберите подходящее решение – сейчас очень много вариантов ИИ.

Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на Telegram.

Следите за новостями о ИИ в нашем Телеграм-канале itinainews или в Twitter @itinairu45358

Попробуйте AI Sales Bot. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

“`

Полезные ссылки: