Itinai.com it company office background blured photography by d7e493cb 96a3 4f86 9405 ee801a2c3fe3 3
Itinai.com it company office background blured photography by d7e493cb 96a3 4f86 9405 ee801a2c3fe3 3

NVIDIA запускает Cosmos-Reason1: новые модели ИИ для физического мышления и взаимодействия в реальном мире

Легче сразу спросить 💭

AI снижает операционные расходы на 20–40% 📊 за 6 месяцев. А что бы вы сделали с этими деньгами?

Опишите задачу — обсудим, как это можно реализовать у вас.

ИИ автоматизирует 70% рутинных задач 🤖 за 3 месяца. Какие процессы в вашем бизнесе скинуть роботу?
Персонализированные AI-кампании увеличивают клиентскую базу на 30% 📈. Как это работает?
AI-аналитика сокращает ошибки в прогнозах на 50% 📉. Расскажите подробнее!

NVIDIA представляет Cosmos-Reason1: набор AI моделей для улучшения физического мышления и обоснованного рассуждения

Искусственный интеллект (AI) достиг значительных успехов в обработке языка, математике и генерации кода. Однако расширение этих возможностей на физические среды остается сложной задачей. Физический AI стремится преодолеть этот разрыв, разрабатывая системы, которые воспринимают, понимают и действуют в динамичных, реальных условиях.

Проблемы существующих AI моделей

Текущие ограничения AI моделей связаны с их слабой связью с реальной физикой. Эти системы хорошо справляются с абстрактными задачами, но часто испытывают трудности с предсказанием физических последствий или адекватным реагированием на сенсорные данные. Обучение непосредственно в физических условиях дорогостоящее и рискованное, что затрудняет развитие и итерации.

Решение от NVIDIA: Cosmos-Reason1

Исследователи NVIDIA представили Cosmos-Reason1, набор мультимодальных больших языковых моделей, специально разработанных для задач физического мышления. Модели Cosmos-Reason1-7B и Cosmos-Reason1-56B проходят обучение в два этапа: Супервизированное тонкое обучение (SFT) и Обучение с подкреплением (RL).

Ключевые особенности подхода

Основное отличие этого подхода заключается в введении двойной онтологии. Первая иерархическая онтология организует физическое обоснование в три основные категории: Пространство, Время и Основная физика, которые далее делятся на 16 подкатегорий. Вторая онтология отображает способности рассуждения через пять воплощенных агентов, включая людей и автономные транспортные средства.

Обучение и тестирование моделей

Архитектура Cosmos-Reason1 использует только декодерный LLM, дополненный визуальным энкодером. Модели обучаются на наборе данных из примерно 4 миллионов аннотированных видео-текстовых пар. Этап обучения с подкреплением использует правила и проверяемые награды, основанные на аннотациях людей и видео-задачах.

Результаты и достижения

Команда разработала три бенчмарка для физического обоснования и шесть для воплощенного мышления. Модели Cosmos-Reason1 показали превосходные результаты по сравнению с предыдущими базовыми уровнями, особенно после этапа RL. Улучшения были зафиксированы в проверке выполнения задач и предсказании следующих действий.

Практические выводы

  • Два модели: Cosmos-Reason1-7B и Cosmos-Reason1-56B, специально обученные для задач физического мышления.
  • Обучение проводилось в два этапа: SFT и RL.
  • Набор данных включает около 4 миллионов аннотированных видео-текстовых пар.
  • Использование двух онтологий для структурирования обучения и оценки.
  • Повышение производительности наблюдалось по всем бенчмаркам после обучения RL.

Заключение

Инициатива Cosmos-Reason1 демонстрирует, как AI может быть лучше подготовлен к физическому миру. Эти достижения представляют собой значительный шаг вперед в преодолении разрыва между абстрактным рассуждением AI и требованиями систем, которые должны функционировать в непредсказуемых условиях.

Связаться с нами

Если вам нужна помощь в управлении AI в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Подписывайтесь на наш Telegram для получения актуальных новостей AI.

Пример решения на базе AI

Посмотрите пример решения на базе AI: продажный бот, предназначенный для автоматизации взаимодействия с клиентами.

Новости в сфере искусственного интеллекта