Google Researchers Introduced LSM-2 with Adaptive and Inherited Masking (AIM): Прямое обучение на неполных данных носимых устройств
Современные носимые устройства кардинально меняют подход к мониторингу здоровья, обеспечивая непрерывный сбор физиологических и поведенческих сигналов, таких как частота сердечных сокращений, активность, температура и проводимость кожи. Однако данные, получаемые с этих устройств, часто бывают неполными из-за различных факторов: отказа датчиков, снятия устройства, зарядки, артефактов движения и других прерываний. Это создает серьезные проблемы для самонастраивающегося обучения (SSL) и базовых моделей, которые обычно ожидают полные и регулярные потоки данных. Традиционные решения часто полагались на заполнение данных или отбрасывание неполных экземпляров, что рискует привести к смещению или потере ценной информации.
Проблема: Неполнота данных носимых устройств
Фрагментация данных — это значительная проблема. Например, в наборе данных из 1,6 миллиона образцов носимых данных за день, 0% образцов были полностью завершены; неполнота данных повсеместна и часто структурирована в длинные пробелы, а не в простые случайные выбросы.
Причины неполноты данных
- Устройство выключено (зарядка или не надето)
- Выборочная деактивация датчиков (для экономии энергии или специфики операции)
- Артефакты движения или шум окружающей среды
- Фильтрация недопустимых или физиологически невозможных показаний во время предварительной обработки
Влияние на моделирование
Многие клинически значимые физиологические паттерны (например, циркадные ритмы, вариабельность сердечного ритма) требуют анализа длинных последовательностей, где неполнота данных почти гарантирована.
Adaptive and Inherited Masking (AIM): Технический подход
Команда исследователей из Google DeepMind представила фреймворк LSM-2 (Large Sensor Model 2) с новой стратегией Adaptive and Inherited Masking (AIM), которая напрямую решает эти проблемы, обучаясь на неполных данных носимых датчиков без явного заполнения.
Ключевые концепции AIM
AIM интегрирует два типа маскирования для надежного обучения:
- Унаследованная маска: Отмечает токены, соответствующие реальной неполноте данных датчиков.
- Искусственная маска: Случайно маскирует наблюдаемые токены, чтобы предоставить цели реконструкции для самонастраивающегося предобучения.
Эти маски комбинируются и обрабатываются с помощью структуры энкодера-декодера на основе трансформеров, что позволяет модели:
- Обучаться напрямую на неполных данных без заполнения.
- Динамически адаптироваться к реальной неполноте данных во время вывода.
- Создавать представления, устойчивые как к частичным, так и к систематическим пробелам в данных.
Стратегии маскирования для предобучения
AIM использует несколько стратегий:
- Случайное заполнение: Удаление 80% токенов для имитации шума датчиков.
- Темпоральные срезы: Удаление 50% временных окон (все датчики отсутствуют в случайные периоды).
- Срезы датчиков: Удаление 50% каналов датчиков на протяжении всего дня (моделирование периодов выключения выборочных датчиков).
Результаты и оценка
Модель была обучена на 40 миллионах часов многомодальных данных датчиков, собранных от 60,440 участников. Основные задачи включали:
- Изучение метаболизма (прогнозирование гипертонии, тревожности)
- Распознавание активности (20 классов активности)
Клиническая согласованность
Падение производительности модели соответствовало ожиданиям в области. Удаление биосигналов в ночное время значительно снижало точность прогнозирования гипертонии и тревожности, что отражает реальную диагностическую ценность ночных данных.
Заключение
LSM-2 с Adaptive and Inherited Masking представляет собой значительный шаг вперед в использовании ИИ для получения медицинских данных с помощью реальных носимых датчиков. Обращаясь к проблемам структурированной неполноты и объединяя генеративные и дискриминационные возможности в одной эффективной и надежной модели, этот подход закладывает основу для будущего носимых технологий и ИИ в условиях реальных, несовершенных данных.
Часто задаваемые вопросы (FAQ)
1. Как LSM-2 улучшает качество данных?
LSM-2 использует адаптивное маскирование, что позволяет модели учиться на неполных данных, не прибегая к их заполнению.
2. Каковы преимущества использования AIM?
AIM позволяет модели динамически адаптироваться к реальной неполноте данных, что значительно улучшает ее устойчивость и точность.
3. Как LSM-2 справляется с отсутствующими данными?
Модель использует унаследованные и искусственные маски, что позволяет ей эффективно работать даже с фрагментированными данными.
4. Каковы реальные примеры применения LSM-2?
Модель может быть использована для мониторинга здоровья, прогнозирования заболеваний и анализа активности, что делает ее полезной в клинической практике.
5. Какие ошибки следует избегать при работе с носимыми данными?
Важно не игнорировать неполноту данных и не полагаться на традиционные методы заполнения, так как это может привести к искажению результатов.
6. Каковы лучшие практики для использования носимых устройств?
Регулярное использование устройств, корректная настройка датчиков и понимание их ограничений помогут получить более точные данные.