Новый набор данных MINT-1T: мультимодальный набор данных с одним триллионом токенов для создания крупных мультимодальных моделей

 MINT-1T Dataset Released: A Multimodal Dataset with One Trillion Tokens to Build Large Multimodal Models

“`html

Датасет MINT-1T: мультимодальный датасет с одним триллионом токенов для создания крупных мультимодальных моделей

Искусственный интеллект, особенно при обучении больших мультимодальных моделей (LMM), тесно связан с обширными наборами данных, включающими последовательности изображений и текста. Эти наборы данных позволяют разрабатывать сложные модели, способные понимать и генерировать мультимодальный контент. По мере усовершенствования возможностей ИИ-моделей становится еще более критической потребность в обширных и высококачественных наборах данных, что побуждает исследователей искать новые методы сбора и курирования данных.

Практические решения и ценность

Создание датасета MINT-1T включало в себя сложный процесс сбора, фильтрации и удаления дубликатов данных. Датасет MINT-1T представляет собой один триллион текстовых токенов и 3,4 миллиарда изображений из HTML, PDF и научных статей ArXiv. Этот датасет обеспечивает прочную основу для развития возможностей ИИ.

Эксперименты показали, что модели LMM, обученные на датасете MINT-1T, соответствуют и часто превосходят производительность моделей, обученных на предыдущих ведущих датасетах, таких как OBELICS. Включение более разнообразных источников в MINT-1T привело к лучшей обобщенности и производительности по различным бенчмаркам.

В заключение, датасет MINT-1T решает проблему недостатка и разнообразия датасетов. Представляя более крупный и разнообразный датасет, исследователи создали основу для развития более надежных и высокопроизводительных мультимодальных моделей с открытым исходным кодом.

Подробнее о датасете, исследовании и GitHub можно узнать здесь.

Источник: https://t.co/FHKhkAURdN

“`

Полезные ссылки: