Точность распознавания изображений: невидимая проблема, сбивающая с толку современные ИИ.

Itinai.com overwhelmed ui interface google style million butt 4839bc38 e4ae 425e bf30 fe84f7941f4c 2

Сегодняшние системы искусственного интеллекта имеют проблемы с точностью распознавания изображений из-за неожиданных вызовов. Новые вызовы требуют новых решений! #искусственныйинтеллект #распознаваниеизображений

Представьте, что вы прокручиваете фотографии на своем телефоне и натыкаетесь на изображение, которое сначала не можете распознать. Похоже, что-то пушистое на диване; может быть, это подушка или пальто? Через несколько секунд вы понимаете — конечно! Это пушистый комочек вашего друга, Мокко. В то время как некоторые из ваших фотографий можно понять мгновенно, почему это фото с котом оказалось гораздо сложнее?

Исследователи Компьютерной науки и искусственного интеллекта Лаборатории Массачусетского технологического института (MIT CSAIL) были удивлены тем, что, несмотря на критическое значение понимания визуальных данных в таких областях, как здравоохранение, транспорт и бытовые устройства, понятие сложности распознавания изображений для людей практически полностью игнорировалось. Одним из основных двигателей прогресса в ИИ на основе глубокого обучения были наборы данных, но мы мало знаем о том, как данные влияют на прогресс в масштабном глубоком обучении за пределами того, что больше означает лучше.

В реальных приложениях, требующих понимания визуальных данных, люди превосходят модели распознавания объектов, несмотря на то, что модели хорошо справляются с текущими наборами данных, включая те, которые явно разработаны для вызова сложностей у машин с помощью дебиатных изображений или смещений распределения. Эта проблема сохраняется, в частности, потому что у нас нет руководства по абсолютной сложности изображения или набора данных. Без учета сложности изображений, используемых для оценки, трудно объективно оценить прогресс в направлении производительности на уровне человека, охватить диапазон человеческих способностей и увеличить сложность набора данных.

Для заполнения этого пробела в знаниях Дэвид Майо, аспирант MIT по электротехнике и компьютерным наукам и ассоциированный с CSAIL, погрузился в глубокий мир наборов данных изображений, изучая, почему некоторые изображения сложнее для людей и машин в распознавании, чем другие. «Некоторые изображения по своей природе требуют больше времени на распознавание, и важно понимать активность мозга во время этого процесса и его отношение к моделям машинного обучения. Возможно, есть сложные нейронные цепи или уникальные механизмы, отсутствующие в наших текущих моделях, видимые только при тестировании сложных визуальных стимулов. Это исследование крайне важно для понимания и улучшения моделей машинного зрения», — говорит Майо, ведущий автор новой статьи по этой работе.