Искусственный интеллект и проблемы с происхождением многомодальных данных

 This AI Paper by The Data Provenance Initiative Team Highlights Challenges in Multimodal Dataset Provenance, Licensing, Representation, and Transparency for Responsible Development

“`html

Проблемы и решения в области искусственного интеллекта

Искусственный интеллект (ИИ) развивается благодаря качеству и доступности обучающих данных. Современные модели требуют разнообразные наборы данных, включая текст, речь и видео. Однако отсутствие прозрачности в происхождении данных создает серьезные проблемы.

Проблемы с данными

Использование данных, которые имеют географические и языковые искажения, а также недостаточно задокументированы, приводит к этическим и юридическим вызовам. Важно понимать источники данных для создания ответственных технологий ИИ.

Недостатки текущих наборов данных

Современные наборы данных часто зависят от нескольких источников, таких как YouTube и Wikipedia. Это приводит к недостаточному представлению языков и регионов. Более 80% популярных наборов данных имеют неопределенные лицензии.

Аудит наборов данных

Исследователи провели самый крупный аудит мультимодальных наборов данных, изучив почти 4000 публичных наборов, созданных с 1990 по 2024 год. Аудит показал, что большинство данных поступает из веб-источников и социальных сетей.

Ключевые выводы

  • Более 70% наборов данных для речи и видео происходят из веб-платформ.
  • Только 33% наборов данных имеют явные некоммерческие лицензии.
  • Североамериканские и европейские организации создают 93% текстовых данных.
  • Искусственные наборы данных, такие как GPT-4, быстро растут.

Рекомендации для компаний

Для успешного внедрения ИИ важно:

  • Анализировать, как ИИ может изменить вашу работу.
  • Определить ключевые показатели эффективности (KPI) для улучшения.
  • Подобрать подходящее решение ИИ и внедрять его постепенно.

Заключение

Аудит выявляет необходимость в более прозрачных и справедливых практиках в области наборов данных. Это призыв к действию для разработчиков и политиков. Если вам нужны советы по внедрению ИИ, пишите нам в Telegram.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab. Будущее уже здесь!

“`

Полезные ссылки: