Фреймворк искусственного интеллекта для обработки результатов атомарных действий как распределение в определенные интервалы

 VCHAR: A Novel Artificial Intelligence AI Framework that Treats the Outputs of Atomic Activities as a Distribution Over Specified Intervals

“`html

Разработка AI-фреймворка VCHAR: новый подход к распознаванию комплексных человеческих действий

В устройствах окружающей среды (smart environments) распознавание сложных человеческих действий играет важную роль в здравоохранении, уходе за пожилыми людьми, наблюдении и реагировании на чрезвычайные ситуации. Однако точная разметка данных с атомарной точностью становится трудоемкой и подверженной ошибкам задачей. Это затрудняет применение традиционных методов распознавания действий.

Проблема традиционных методов

Традиционные методы требуют детальной разметки атомарных действий в строго заданный временной интервал для эффективного обучения моделей. В практике многие наборы данных не содержат точной временной разметки, что влечет за собой комбинаторную сложность и потенциальные ошибки в разметке.

Решение: фреймворк VCHAR

Фреймворк VCHAR, предложенный исследователями из университета Ратгерс, использует генеративный подход для обработки атомарных действий как распределений в определенных временных интервалах, что устраняет необходимость точной разметки. Этот фреймворк расширяет область применения методов распознавания действий и делает их доступными для пользователей без специальных знаний машинного обучения.

Методика VCHAR использует подход, основанный на дисперсии, для приближения распределения атомарных действий в определенных временных интервалах, позволяя распознавать ключевые атомарные действия без необходимости устранения переходных состояний или несущественных данных.

Кроме того, VCHAR представляет новый генеративный декодерный фреймворк, который преобразует выходы моделей, основанных на датчиках, в интегрированные визуальные представления домена. Он также предлагает предварительно обученную “базовую модель на основе датчиков” и стратегию “однократной настройки” для быстрой адаптации к конкретным сценариям.

Преимущества и применение

Интеграция языковой модели (LM) и модели видео-языка (VLM) позволяет создавать комплексные визуальные рассказы, представляющие обнаруженные действия и информацию сенсоров.

Фреймворк VCHAR устраняет необходимость точной разметки и предоставляет понятные визуальные представления сложных действий, улучшая точность распознавания действий и делая выводы доступными для неспециалистов. Его адаптивность, достигаемая за счет предварительного обучения и однократной настройки, делает его многообещающим решением для приложений в реальных умных окружениях.

Больше информации о фреймворке исследования доступно здесь.

“`

Полезные ссылки: