Фреймворк DaCapo для ускорения обучения моделей машинного обучения на больших изображениях

 DaCapo: An Open-Sourced Deep Learning Framework to Expedite the Training of Existing Machine Learning Approaches on Large and Near-Isotropic Image Data

“`html

DaCapo: открытая платформа глубокого обучения для ускорения обучения существующих подходов машинного обучения на больших и почти изотропных изображениях

Точная сегментация структур, таких как клетки и органеллы, является решающей для получения значимых биологических данных из изображений. Однако с развитием технологий изображений возникают проблемы масштабирования существующих методов машинного обучения из-за увеличения размеров, размерности и сложности изображений. Особенно это заметно в объемной электронной микроскопии, такой как фокусированная ионно-лучевая электронная микроскопия (FIB-SEM) с практически изотропными возможностями. Традиционные методы сегментации на основе 2D нейронных сетей все еще нуждаются в полной оптимизации для этих высокомерных методов изображений, что подчеркивает необходимость более продвинутых подходов для эффективной работы с увеличенной сложностью данных.

Решение DaCapo

Исследователи из Janelia Research Campus разработали DaCapo, открытую платформу, предназначенную для масштабируемых приложений глубокого обучения, особенно для сегментации больших и сложных наборов изображений, таких как те, которые производятся FIB-SEM. Модульная конструкция DaCapo позволяет настраивать его под различные потребности, такие как сегментация 2D или 3D, изотропные или анизотропные данные, и различные архитектуры нейронных сетей. Он поддерживает блочное распределенное развертывание на локальных, кластерных или облачных инфраструктурах, что делает его адаптивным к различным вычислительным средам. DaCapo нацелен на улучшение доступности сегментации изображений большого масштаба и приглашает к сотрудничеству сообщество.

DaCapo упрощает процесс обучения моделей глубокого обучения, управляя загрузкой данных, аугментацией, расчетом потерь и оптимизацией параметров. Пользователи могут легко указывать подмножества данных для обучения или валидации, используя файл CSV. DaCapo управляет проверкой модели и выполняет параметрические сканирования для постобработки, оценивая метрики производительности, такие как F1-оценка, индекс Жаккара и вариации информации. Он также предлагает гибкость в спецификации задачи, позволяя пользователям переключаться между задачами сегментации и целями прогнозирования с минимальными изменениями кода. Такой модульный дизайн обеспечивает легкую настройку и масштабируемость в различных вычислительных средах, повышая эффективность обучения и развертывания моделей.

DaCapo – это комплексная платформа, предназначенная для обучения и развертывания моделей глубокого обучения, особенно для сегментации биологических изображений большого масштаба. Он включает предварительно построенные архитектуры моделей, такие как 2D и 3D UNets, и поддерживает интеграцию пользовательских или предварительно обученных моделей. Особенно важно то, что он предоставляет доступ к предварительно обученным сетям от команды проекта COSEM, которые полезны для сегментации клеток и субклеточных структур на изображениях FIB-SEM. Пользователи могут загружать и донастраивать эти модели для конкретных наборов данных, а в будущем модели, такие как CellMap, ожидаются в ассортименте DaCapo. Платформа призывает сообщество вносить свой вклад в расширение ее репозитория моделей.

Для обработки данных петабайтного масштаба DaCapo использует блочную вывод и постобработку, используя инструменты, такие как Daisy и фрагментированные форматы файлов (например, Zarr-V2 и N5), чтобы эффективно обрабатывать большие объемы данных. Этот подход устраняет краевые артефакты и позволяет без проблем параллелизировать как семантические, так и инстансные задачи сегментации. Пользователи также могут создавать пользовательские сценарии для настроенной постобработки без опыта в параллелизации или фрагментированных форматах. Примером реализации является использование Empanada для сегментации митохондрий в больших образовательных объемах, демонстрируя гибкость и масштабируемость платформы.

Конфигурация контекста вычислений DaCapo предлагает гибкость в управлении операциями на локальных узлах, распределенных кластерах или облачных средах. Он поддерживает ряд вариантов хранения и вычислительных сред, а легкость развертывания облегчается образом Docker для облачных ресурсов, таких как AWS. Платформа постоянно развивается, с планами улучшения пользовательского интерфейса, расширения репозитория предварительно обученных моделей и улучшения масштабируемости. Команда DaCapo приглашает сообщество принять участие в ее развитии, нацеленном на продвижение области биологического анализа изображений.

Посмотрите статью и GitHub. Вся заслуга за этот проект принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter и присоединиться к нашей Telegram-группе и LinkedIn-группе. Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему SubReddit ML с 48 тыс. подписчиков

Исследователи из AI Center FPT Software представляют XMainframe: современную большую модель языка (LLM), специализированную для модернизации мейнфреймов для решения проблем наследственного кода на сумму в 100 млрд долларов.

Источник: MarkTechPost

“`

Полезные ссылки: