“`html
Революция в области компьютерного зрения: ввод Sapiens
Преимущества широкомасштабного предварительного обучения и тонкой настройки под конкретную задачу
Большое предварительное обучение, а затем точная настройка под конкретные задачи, изменили моделирование языка и теперь трансформируют компьютерное зрение. Экстенсивные наборы данных, такие как LAION-5B и JFT-300M, позволяют предварительное обучение за пределами традиционных бенчмарков, расширяя возможности визуального обучения. Значимые модели, такие как DINOv2, MAWS и AIM, сделали значительные шаги в генерации свойств самонаблюдаемых признаков и масштабирования маскированного автокодировщика. Однако существующие методы часто не учитывают человеко-центрические подходы, фокусируясь в основном на общем предварительном обучении изображений или классификации без обучения.
Человеко-центрическое предварительное обучение
Наша новая работа представляет Sapiens – коллекцию моделей трансформера высокого разрешения, предварительно обученных на миллионах изображений людей. В отличие от предыдущих работ, которые не масштабировали трансформеры зрения в той же степени, что и большие языковые модели, Sapiens устраняет этот пробел, используя набор данных Humans-300M. Этот разнообразный набор из 300 миллионов изображений людей позволяет изучать влияние распределения данных предварительного обучения на конкретные задачи, связанные с людьми. Подчеркивая человеко-центрическое предварительное обучение, Sapiens стремится продвигать область компьютерного зрения в таких областях, как цифровизация 3D-человека, оценка ключевых точек и сегментация частей тела, что критически важно для реальных приложений.
Эффективная методология Sapiens
Мы предлагаем новый подход к человеко-центрическому компьютерному зрению через Sapiens – семейство моделей трансформера зрения. Этот подход объединяет масштабное предварительное обучение на изображениях людей с высококачественной аннотацией, достигая надежной обобщенности, широкой применимости и высокой степени подлинности в реальных сценариях. Методология использует простую кураторскую работу с данными и предварительное обучение, обеспечивая значительное улучшение производительности. Sapiens поддерживает вывод с высокой точностью на разрешении 1K, достигая передовых результатов на различных бенчмарках. Как потенциальная основная модель для последующих задач, Sapiens демонстрирует эффективность предварительного обучения в области компьютерного зрения, с возможностью дальнейшей работы с 3D и мультимодальными наборами данных.
Многоаспектная методология Sapiens
Модели Sapiens используют многоаспектную методологию, фокусирующуюся на масштабном предварительном обучении, высококачественной аннотации и архитектурных инновациях. Этот подход использует куратированный набор данных для задач, связанных с людьми, подчеркивая точные аннотации с 308 ключевыми точками для оценки позы и 28 классами сегментации. Архитектурное проектирование приоритизирует масштабирование по ширине, улучшая производительность без значительного увеличения вычислительных затрат. Методология включает убывание скорости обучения на уровне слоя и оптимизацию весового затухания. Он подчеркивает обобщение в различных средах и использует синтетические данные для оценки глубины и нормали. Это стратегическое сочетание создает надежные модели, способные эффективно выполнять разнообразные задачи, связанные с людьми, в реальных сценариях, решая проблемы в существующих общедоступных бенчмарках и повышая адаптивность модели.
Полная оценка эффективности Sapiens
Модели Sapiens прошли комплексную оценку по четырем основным задачам: оценка позы, сегментация частей, оценка глубины и оценка нормали. Предварительное обучение на наборе данных Human 300M привело к превосходной производительности по всем метрикам. Результаты были количественно оценены с использованием mAP для оценки позы, mIoU для сегментации, RMSE для оценки глубины и средней угловой ошибки для оценки нормали. Увеличение размера набора данных предварительного обучения последовательно улучшало производительность, демонстрируя корреляцию между разнообразием данных и обобщением модели. Модели проявляли устойчивые способности к обобщению в различных сценариях реального мира. В целом, Sapiens продемонстрировал сильную производительность во всех оцененных задачах, причем улучшения были связаны с качеством и количеством данных предварительного обучения. Эти результаты подтверждают эффективность методологии Sapiens в создании точных и обобщенных моделей визуального восприятия человека.
Заключение
Sapiens представляет собой значительный прогресс в области моделей визуального восприятия человека, демонстрируя сильную обобщенность в различных задачах. Его исключительная производительность происходит от масштабного предварительного обучения на куратированном наборе данных, высокоразрешающих моделей трансформера зрения и высококачественной аннотации. Расположенный в качестве основного элемента для последующих задач, Sapiens делает высококачественные визионные основы более доступными. Дальнейшая работа может расшириться на 3D и мультимодальные наборы данных. Исследование подчеркивает, что сочетание специфического для области масштабного предварительного обучения с ограниченной высококачественной аннотацией приводит к надежной обобщенности в реальном мире, уменьшая необходимость в обширных наборах аннотаций. Таким образом, Sapiens становится трансформационной моделью в области визуального восприятия человека, предлагая значительный потенциал для будущих исследований и применений.
Подробнее о работе. Вся заслуга за это исследование принадлежит исследователям проекта. Также не забудьте подписаться на нас в Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится и наш информационный бюллетень.
Не забудьте присоединиться к нашему SubReddit с 49 тыс. подписчиков
Узнайте о предстоящих вебинарах по ИИ здесь
Компания Meta представляет Sapiens: основу для моделей визуального восприятия человека.
Проанализируйте, как ИИ может изменить вашу работу.
Определите, где возможно применение автоматизации и где ваши клиенты могут извлечь выгоду из ИИ.
Определитесь, какие ключевые показатели эффективности вы хотите улучшить с помощью ИИ.
Подберите подходящее решение – сейчас очень много вариантов ИИ.
Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.
На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на Telegram.
Следите за новостями о ИИ в нашем Телеграм-канале itinainews или в Twitter @itinairu45358
Попробуйте AI Sales Bot. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!
“`