Решения искусственного интеллекта для вашего бизнеса
Практические применения и ценность
Спрос на настраиваемые, открытые модели, способные эффективно работать на различных аппаратных платформах, растет, и Meta стоит во главе удовлетворения этого спроса. Llama 3.2 представляет собой релиз с открытым исходным кодом, включающий небольшие и средние модели LLM для зрения (11B и 90B), а также легкие текстовые модели (1B и 3B), предназначенные для краевых и мобильных устройств. Эти модели оптимизированы для различных задач, включая приложения только для текста и на основе зрения, и специально разработаны для краевых устройств, делая ИИ более доступным для разработчиков и предприятий.
Выпущенные варианты моделей
Llama 3.2 выпустила две категории моделей в этой версии серии Llama:
Модели для зрения LLM (11B и 90B): Это самые крупные модели для сложных задач анализа изображений, такие как понимание на уровне документа, визуальное позиционирование и подписывание изображений. Они конкурентоспособны с другими закрытыми моделями на рынке и превосходят их в различных бенчмарках понимания изображений.
Легкие текстовые модели LLM (1B и 3B): Эти более компактные модели разработаны для приложений ИИ на краю. Они обеспечивают надежную производительность для задач суммирования, следования инструкциям и переписывания запросов, сохраняя при этом низкую вычислительную нагрузку. Модели также имеют длину контекста токена 128 000, что значительно улучшает предыдущие версии.
Обе версии этих моделей, как предварительно обученные, так и настроенные по инструкции, доступны для загрузки, с поддержкой от Qualcomm, MediaTek и Arm, обеспечивая возможность разработчикам развертывать эти модели непосредственно на мобильных и краевых устройствах. Модели были сделаны доступными для немедленной загрузки и использования через llama.com, Hugging Face и партнерские платформы, такие как AMD, AWS, Google Cloud и Dell.
Технические достижения и поддержка экосистемы
Одним из наиболее заметных улучшений в Llama 3.2 является введение архитектуры на основе адаптеров для моделей для зрения, где в кодировщики изображений интегрированы предварительно обученные текстовые модели. Эта архитектура позволяет глубокому анализу данных изображений и текста, значительно расширяя область применения этих моделей. Предварительно обученные модели прошли обширное донастройка, включая обучение на масштабных шумных данных пар изображений и текста и последующее обучение на высококачественных, внедоменных наборах данных.
Критическим фактором в революционном потенциале Llama 3.2 является его сильная поддержка экосистемы. С партнерством с ведущими технологическими компаниями, AWS, Databricks, Dell, Microsoft Azure, NVIDIA и другими, Llama 3.2 оптимизирована как для локальных, так и для облачных сред. Распределения Llama Stack упрощают развертывание для разработчиков, предлагая готовые решения для краевых, облачных и локальных сред. Распределения, такие как PyTorch ExecuTorch для развертывания на устройствах и Ollama для одиночных узлов, дополнительно подтверждают гибкость этих моделей.
Продолжение следует…