Модели компьютерного зрения Nomic Embed Vision v1 и v1.5: новые возможности для работы с текстовыми моделями.

 Nomic AI Releases Nomic Embed Vision v1 and Nomic Embed Vision v1.5: CLIP-like Vision Models that Can be Used Alongside their Popular Text Embedding Models 

“`html

Nomic AI Releases Nomic Embed Vision v1 and Nomic Embed Vision v1.5: CLIP-like Vision Models that Can be Used Alongside their Popular Text Embedding Models

Nomic AI недавно представила два значительных релиза в мультимодальных моделях встраивания: Nomic Embed Vision v1 и Nomic Embed Vision v1.5. Эти модели разработаны для предоставления высококачественных, полностью реплицируемых встраиваний видения, которые без проблем интегрируются с существующими моделями Nomic Embed Text v1 и v1.5. Эта интеграция создает унифицированное пространство встраивания, которое улучшает производительность мультимодальных и текстовых задач, превосходя конкурентов, таких как OpenAI CLIP и OpenAI Text Embedding 3 Small.

Практические решения и ценность:

Nomic Embed Vision призван решить ограничения существующих мультимодальных моделей, таких как CLIP, которые, хотя и впечатляют своими возможностями нулевого шота в мультимодальности, недостаточно эффективны в задачах вне поиска изображений. Путем выравнивания визионного кодера с существующим пространством латентных векторов Nomic Embed Text, Nomic создала унифицированное мультимодальное пространство, которое превосходит в задачах изображений и текста. Это унифицированное пространство показало превосходную производительность на бенчмарках, таких как Imagenet 0-Shot, MTEB и Datacomp, что делает его первой моделью весов, достигшей таких результатов.

Модели Nomic Embed Vision могут встраивать данные изображений и текста, выполнять унимодальный семантический поиск внутри наборов данных и проводить мультимодальный семантический поиск по наборам данных. С всего 92 миллионами параметров визионный кодер идеален для использования в высоконагруженных производственных случаях, дополняя 137 миллионов Nomic Embed Text. Nomic открыла исходный код обучения и инструкции по репликации, позволяя исследователям воспроизводить и улучшать модели.

Производительность этих моделей прошла бенчмаркирование по установленным стандартам, причем Nomic Embed Vision продемонстрировала превосходную производительность на различных задачах. Например, Nomic Embed v1 достиг 70,70 на Imagenet 0-shot, 56,7 на Datacomp Avg. и 62,39 на MTEB Avg. Nomic Embed v1.5 показал немного лучшие результаты, указывая на надежность этих моделей.

Источник изображения

Nomic Embed Vision обеспечивает мультимодальный поиск в Atlas, демонстрируя свою способность понимать текстовые запросы и содержание изображений. Пример запроса продемонстрировал семантическое понимание модели путем извлечения изображений милых животных из набора данных из 100 000 изображений и подписей.

Обучение Nomic Embed Vision включало несколько инновационных подходов к выравниванию визионного кодера с текстовым кодером. Это включало обучение на парах изображений и текста и только текстовых данных, использование метода обучения Three Towers и Locked-Image Text Tuning. Самый эффективный подход включал замораживание текстового кодера и обучение визионного кодера на парах изображений и текста, обеспечивая обратную совместимость с встраиваниями Nomic Embed Text.

Визионный кодер обучался на подмножестве 1,5 миллиарда пар изображений и текста с использованием 16 H100 GPU, достигнув впечатляющих результатов на бенчмарке Datacomp, который включает 38 задач классификации и поиска изображений.

Nomic выпустила две версии Nomic Embed Vision, v1 и v1.5, которые совместимы с соответствующими версиями Nomic Embed Text. Эта совместимость позволяет без проблем выполнять мультимодальные задачи на разных версиях. Модели выпущены под лицензией CC-BY-NC-4.0, поощряя эксперименты и исследования, с планами перелицензирования под Apache-2.0 для коммерческого использования.

В заключение, Nomic Embed Vision v1 и v1.5 трансформируют мультимодальные встраивания, предоставляя унифицированное латентное пространство, которое превосходит в задачах изображений и текста. С открытым исходным кодом обучения и обязательством к постоянному инновационному развитию, Nomic AI устанавливает новый стандарт в моделях встраивания, предлагая мощные инструменты для различных приложений.

Источник: MarkTechPost

Как использовать искусственный интеллект для развития вашего бизнеса

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте Nomic AI Releases Nomic Embed Vision v1 and Nomic Embed Vision v1.5: CLIP-like Vision Models that Can be Used Alongside their Popular Text Embedding Models.

Практические решения и ценность:

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

“`

Полезные ссылки: