AMD выпускает AMD-135M: первую серию небольших языковых моделей, обученных с нуля на ускорителях AMD Instinct™ MI250 с использованием 670 млрд токенов.

 AMD Releases AMD-135M: AMD’s First Small Language Model Series Trained from Scratch on AMD Instinct™ MI250 Accelerators Utilizing 670B Tokens 

“`html

AMD представила новую языковую модель AMD-135M

Практические решения и ценность

AMD недавно представила свою новую языковую модель, AMD-135M или AMD-Llama-135M, которая является значительным дополнением к арсеналу моделей искусственного интеллекта. Основанная на архитектуре модели LLaMA2, эта языковая модель обладает прочной структурой с 135 миллионами параметров и оптимизирована для работы на последних GPU от AMD, в частности на MI250. Этот релиз является важным шагом для AMD в установлении крепкой позиции в конкурентной отрасли искусственного интеллекта.

Фон и технические характеристики

AMD-135M построена на архитектуре модели LLaMA2 и интегрирована с передовыми функциями для поддержки различных приложений, особенно в области генерации текста и понимания языка. Модель разработана для безупречной работы с библиотекой Hugging Face Transformers, что делает ее доступной для разработчиков и исследователей. Модель способна обрабатывать сложные задачи с размером скрытого слоя 768, 12 слоями и 12 головами внимания, обеспечивая при этом высокую эффективность. Для активации используется функция Swiglu, а для нормализации слоя – метод RMSNorm. Позиционное вложение разработано с использованием метода RoPE, повышая способность модели точно понимать и генерировать контекстную информацию.

Выпуск этой модели не касается только аппаратных характеристик, но и программного обеспечения и наборов данных, поддерживающих ее. AMD-135M была предварительно обучена на двух ключевых наборах данных: SlimPajama и Project Gutenberg. Набор данных SlimPajama является дедуплицированной версией RedPajama, который включает источники такие как Commoncrawl, C4, GitHub, Books, ArXiv, Wikipedia и StackExchange. Набор данных Project Gutenberg предоставляет доступ к обширному хранилищу классических текстов, позволяя модели понять различные языковые структуры и словари.

Основные характеристики AMD-135M

AMD-135M обладает замечательными особенностями, выделяющими ее из других моделей на рынке. Некоторые из ключевых особенностей включают:

  • Размер параметров: 135 миллионов параметров для эффективной обработки и генерации текста.
  • Число слоев: 12 слоев с 12 головами внимания для глубокого анализа и контекстного понимания.
  • Скрытый размер: 768, предоставляющий возможность обработки различных задач языкового моделирования.
  • Тип внимания: Multi-Head Attention, позволяющий модели фокусироваться на различных аспектах входных данных одновременно.
  • Размер окна контекста: 2048, обеспечивающий эффективное управление более крупными последовательностями входных данных модели.

Для предварительного обучения и донастройки используются наборы данных SlimPajama и Project Gutenberg, а для донастройки – набор данных StarCoder, обеспечивая всестороннее понимание языка. Конфигурация обучения включает скорость обучения 6е-4 с косинусным графиком скорости обучения, и модель прошла несколько эпох для эффективного обучения и донастройки.

Развертывание и использование

AMD-135M может легко развертываться и использоваться через библиотеку Hugging Face Transformers. Для развертывания пользователи могут загрузить модель, используя модули `LlamaForCausalLM` и `AutoTokenizer`. Это удобство интеграции делает ее предпочтительным вариантом для разработчиков, стремящихся внедрить возможности языкового моделирования в свои приложения. Кроме того, модель совместима с спекулятивным декодированием для CodeLlama от AMD, дополнительно расширяя ее применимость для задач генерации кода. Эта функция делает AMD-135M особенно полезной для разработчиков, работающих над генерацией текста, связанного с программированием, или другими приложениями обработки естественного языка.

Оценка производительности

Производительность AMD-135M была оценена с использованием lm-evaluation-harness на различных бенчмарках NLP, таких как SciQ, WinoGrande и PIQA. Результаты показывают, что модель является высококонкурентоспособной, предлагая сопоставимую производительность с другими моделями в ее диапазоне параметров. Например, на наборе данных Humaneval с использованием GPU MI250 модель достигла показателя примерно 32,31%, что является сильным показателем производительности для модели такого размера. Это показывает, что AMD-135M может быть надежной моделью для исследовательских и коммерческих приложений в области обработки естественного языка.

В заключение, выпуск AMD-135M подчеркивает приверженность AMD к развитию технологий искусственного интеллекта и предоставлению доступных высокопроизводительных моделей для исследовательского сообщества. Ее прочная архитектура и передовые методы обучения позиционируют AMD-135M как серьезного конкурента в быстро развивающемся мире моделей искусственного интеллекта.

Проверьте модель на Hugging Face и дополнительные детали. Вся честь за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter и присоединиться к нашему Telegram-каналу и группе LinkedIn. Если вам нравится наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу ML на Reddit.

Применение ИИ в вашем бизнесе

Практические советы и решения

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте AMD Releases AMD-135M: AMD’s First Small Language Model Series Trained from Scratch on AMD Instinct™ MI250 Accelerators Utilizing 670B Tokens.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

“`

Полезные ссылки: