Познакомьтесь с LLM360: первой полностью открытой и прозрачной крупномасштабной моделью языка. Это новое достижение в развитии искусственного интеллекта, которое открывает новые возможности для коллективного развития и применения языковых моделей. #LLM360 #OpenSource #AI
Открытые большие языковые модели (LLMs), такие как LLaMA, Falcon и Mistral, предлагают широкий выбор для специалистов по искусственному интеллекту и ученым. Тем не менее, большинство этих LLM предоставляют только выбранные компоненты, такие как веса конечных моделей или сценарии вывода, а технические документы часто сужают свое внимание на более широкие аспекты проектирования и базовые метрики. Такой подход снижает ясность в методологии обучения LLM и приводит к повторным усилиям команд по выявлению многих аспектов процедуры обучения.
Команда исследователей из Petuum, MBZUAI, USC, CMU, UIUC и UCSD представила LLM360 для поддержки открытых и коллаборативных исследований в области искусственного интеллекта, сделав процесс обучения LLM прозрачным и воспроизводимым для всех. LLM360 – это инициатива полного открытия LLM, которая выступает за доступность всего обучающего кода и данных, контрольных точек модели и промежуточных результатов для сообщества.
Ближайший проект к LLM360 – Pythia, который также стремится к полной воспроизводимости LLM. Модели EleutherAI, такие как GPT-J и GPT-NeoX, были выпущены с обучающим кодом, наборами данных и промежуточными контрольными точками модели, продемонстрировав ценность открытого обучающего кода. INCITE, MPT и OpenLLaMA были выпущены с обучающим кодом и наборами данных, а RedPajama также выпустила промежуточные контрольные точки модели.
LLM360 выпускает две LLM с 7 миллиардами параметров, AMBER и CRYSTALCODER, вместе с их обучающим кодом, данными, промежуточными контрольными точками и анализами. Детали набора данных предварительного обучения, включая предварительную обработку данных, формат, соотношения смешивания данных и архитектурные детали модели LLM, рассматриваются в исследовании.
Исследование упоминает использование оценки запоминания, введенной в предыдущей работе, и выпускает метрики, фрагменты данных и контрольные точки для удобного нахождения соответствия исследователями. В исследовании также подчеркивается важность удаления данных, на которых предварительно обучаются LLM, а также детали фильтрации данных, обработки и порядок обучения для оценки рисков LLM.
Исследование представляет результаты бенчмаркинга на четырех наборах данных, а именно ARC, HellaSwag, MMLU и TruthfulQA, показывая производительность модели во время предварительного обучения. Оценочные баллы HellaSwag и ARC монотонно увеличиваются во время предварительного обучения, в то время как оценка TruthfulQA уменьшается. Оценка MMLU сначала уменьшается, а затем начинает расти. Производительность AMBER относительно конкурентоспособна в оценках, таких как MMLU, но отстает в ARC. Донастройка моделей AMBER показывает хорошую производительность по сравнению с другими аналогичными моделями.
В заключение, LLM360 – это инициатива по созданию всесторонне открытых LLM для продвижения прозрачности в сообществе предварительного обучения открытых LLM. В рамках исследования были выпущены две LLM с 7 миллиардами параметров, AMBER и CRYSTALCODER, вместе с их обучающим кодом, данными, промежуточными контрольными точками модели и анализами. В исследовании подчеркивается важность полного открытия LLM со всех сторон, включая выпуск контрольных точек, фрагментов данных и результатов оценки, чтобы обеспечить всесторонний анализ и воспроизводимость.
Если вам нужны рекомендации по управлению ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.com.
Посмотрите на практический пример решения на основе ИИ: бот для продаж от itinai.ru/aisales, созданный для автоматизации общения с клиентами круглосуточно и управления взаимодействием на всех этапах пути клиента.
Изучите, как искусственный интеллект может улучшить ваши продажи и общение с клиентами. Познакомьтесь с нашими решениями на сайте itinai.ru