Искусственный интеллект и проблемы с происхождением многомодальных данных

Itinai.com a split screen photorealistic image of two compute 3f3c3d48 14eb 458c bcf3 739369f920b8 2

«`html

Проблемы и решения в области искусственного интеллекта

Искусственный интеллект (ИИ) развивается благодаря качеству и доступности обучающих данных. Современные модели требуют разнообразные наборы данных, включая текст, речь и видео. Однако отсутствие прозрачности в происхождении данных создает серьезные проблемы.

Проблемы с данными

Использование данных, которые имеют географические и языковые искажения, а также недостаточно задокументированы, приводит к этическим и юридическим вызовам. Важно понимать источники данных для создания ответственных технологий ИИ.

Недостатки текущих наборов данных

Современные наборы данных часто зависят от нескольких источников, таких как YouTube и Wikipedia. Это приводит к недостаточному представлению языков и регионов. Более 80% популярных наборов данных имеют неопределенные лицензии.

Аудит наборов данных

Исследователи провели самый крупный аудит мультимодальных наборов данных, изучив почти 4000 публичных наборов, созданных с 1990 по 2024 год. Аудит показал, что большинство данных поступает из веб-источников и социальных сетей.

Ключевые выводы

Более 70% наборов данных для речи и видео происходят из веб-платформ.
Только 33% наборов данных имеют явные некоммерческие лицензии.
Североамериканские и европейские организации создают 93% текстовых данных.
Искусственные наборы данных, такие как GPT-4, быстро растут.

Заключение

Аудит выявляет необходимость в более прозрачных и справедливых практиках в области наборов данных. Это призыв к действию для разработчиков и политиков. Если вам нужны советы по внедрению ИИ, пишите нам в Telegram.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab. Будущее уже здесь!

«`