✅ Модели компьютерного зрения Nomic Embed Vision v1 и v1.5: новые возможности для работы с текстовыми моделями.

«`html

Nomic AI Releases Nomic Embed Vision v1 and Nomic Embed Vision v1.5: CLIP-like Vision Models that Can be Used Alongside their Popular Text Embedding Models

Nomic AI недавно представила два значительных релиза в мультимодальных моделях встраивания: Nomic Embed Vision v1 и Nomic Embed Vision v1.5. Эти модели разработаны для предоставления высококачественных, полностью реплицируемых встраиваний видения, которые без проблем интегрируются с существующими моделями Nomic Embed Text v1 и v1.5. Эта интеграция создает унифицированное пространство встраивания, которое улучшает производительность мультимодальных и текстовых задач, превосходя конкурентов, таких как OpenAI CLIP и OpenAI Text Embedding 3 Small.

Практические решения и ценность:

Nomic Embed Vision призван решить ограничения существующих мультимодальных моделей, таких как CLIP, которые, хотя и впечатляют своими возможностями нулевого шота в мультимодальности, недостаточно эффективны в задачах вне поиска изображений. Путем выравнивания визионного кодера с существующим пространством латентных векторов Nomic Embed Text, Nomic создала унифицированное мультимодальное пространство, которое превосходит в задачах изображений и текста. Это унифицированное пространство показало превосходную производительность на бенчмарках, таких как Imagenet 0-Shot, MTEB и Datacomp, что делает его первой моделью весов, достигшей таких результатов.

Модели Nomic Embed Vision могут встраивать данные изображений и текста, выполнять унимодальный семантический поиск внутри наборов данных и проводить мультимодальный семантический поиск по наборам данных. С всего 92 миллионами параметров визионный кодер идеален для использования в высоконагруженных производственных случаях, дополняя 137 миллионов Nomic Embed Text. Nomic открыла исходный код обучения и инструкции по репликации, позволяя исследователям воспроизводить и улучшать модели.

Производительность этих моделей прошла бенчмаркирование по установленным стандартам, причем Nomic Embed Vision продемонстрировала превосходную производительность на различных задачах. Например, Nomic Embed v1 достиг 70,70 на Imagenet 0-shot, 56,7 на Datacomp Avg. и 62,39 на MTEB Avg. Nomic Embed v1.5 показал немного лучшие результаты, указывая на надежность этих моделей.

Источник изображения

Nomic Embed Vision обеспечивает мультимодальный поиск в Atlas, демонстрируя свою способность понимать текстовые запросы и содержание изображений. Пример запроса продемонстрировал семантическое понимание модели путем извлечения изображений милых животных из набора данных из 100 000 изображений и подписей.

Обучение Nomic Embed Vision включало несколько инновационных подходов к выравниванию визионного кодера с текстовым кодером. Это включало обучение на парах изображений и текста и только текстовых данных, использование метода обучения Three Towers и Locked-Image Text Tuning. Самый эффективный подход включал замораживание текстового кодера и обучение визионного кодера на парах изображений и текста, обеспечивая обратную совместимость с встраиваниями Nomic Embed Text.

Визионный кодер обучался на подмножестве 1,5 миллиарда пар изображений и текста с использованием 16 H100 GPU, достигнув впечатляющих результатов на бенчмарке Datacomp, который включает 38 задач классификации и поиска изображений.

Nomic выпустила две версии Nomic Embed Vision, v1 и v1.5, которые совместимы с соответствующими версиями Nomic Embed Text. Эта совместимость позволяет без проблем выполнять мультимодальные задачи на разных версиях. Модели выпущены под лицензией CC-BY-NC-4.0, поощряя эксперименты и исследования, с планами перелицензирования под Apache-2.0 для коммерческого использования.

В заключение, Nomic Embed Vision v1 и v1.5 трансформируют мультимодальные встраивания, предоставляя унифицированное латентное пространство, которое превосходит в задачах изображений и текста. С открытым исходным кодом обучения и обязательством к постоянному инновационному развитию, Nomic AI устанавливает новый стандарт в моделях встраивания, предлагая мощные инструменты для различных приложений.

Источник: MarkTechPost

Как использовать искусственный интеллект для развития вашего бизнеса

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте Nomic AI Releases Nomic Embed Vision v1 and Nomic Embed Vision v1.5: CLIP-like Vision Models that Can be Used Alongside their Popular Text Embedding Models.

Практические решения и ценность:

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

«`

Модели компьютерного зрения Nomic Embed Vision v1 и v1.5: новые возможности для работы с текстовыми моделями.

Nomic AI Releases Nomic Embed Vision v1 and Nomic Embed Vision v1.5: CLIP-like Vision Models that Can be Used Alongside their Popular Text Embedding Models

Практические решения и ценность:

Как использовать искусственный интеллект для развития вашего бизнеса

Практические решения и ценность:

Полезные ссылки:

AI Lab in Telegram @itinai — бесплатная консультация

Телеграм сообщество — @itinairu

Запустите свой ИИ проект бесплатно

AI-бот в канале про финансы и инвестиции

Монетизация экспертного канала по саморазвитию

Как эксперт по маркетингу может начать с AI

Как блогеру о психологии начать зарабатывать

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Агент для автоматизации ITIL-процессов : управление инцидентами и изменениями

ИИ-Аналитик конкурентов : мониторинг цен и позиционирования

ИИ-Агент для мультиязычной поддержки клиентов : автоматизация перевода и коммуникации

ИИ-Агент для оптимизации энергопотребления : мониторинг и прогноз нагрузки

Как провести анализ операционных рисков по методу RCSA: ИИ предложит чек-лист контроля и шаблон

Как сравнить альтернативные инвестиции: ИИ рассчитает NPV и IRR по каждому варианту

Как организовать сбор дефектов в формате RCA: ИИ предложит шаблон анализа корневых причин

Как системному аналитику собрать требования к интеграции: ИИ предложит чек-лист вопросов по системам

Как провести опрос на знание и восприятие бренда: ИИ предложит 10 вопросов и формат для B2C и B2B

Как вести журнал регистрации входящих документов вручную: ИИ создаст универсальную таблицу

Лучший ИИ онлайн

Новая система искусственного интеллекта, объединяющая RAG и длинные контекстные языковые модели для повышения производительности

Новая архитектура MoMa для эффективного мульти-модального предварительного обучения.

Умный бот поддержки: Эволюция обслуживания ваших абонентов

Новый алгоритм ‘OmegaPRM’ для сбора качественных данных о процессах с использованием метода поиска по дереву Монте-Карло.

Прогнозирование с помощью регрессии как классификации

Создание агента LLM с контекстным сворачиванием для долгосрочного рассуждения в бизнесе

Duolingo против Knowji: Сравнение платформ для обучения языкам в бизнесе

Условия использования

Карта сайта

Вакансии

Политика комментариев

Отказ от ответственности

Доступность