Институт искусственного интеллекта AI2 выпустил новый набор ресурсов OLMo 1B и 7B

 Allen Institute for AI (AI2) Released a New Bundle of OLMo 1B and 7B Assets

“`html

Allen Institute for AI (AI2) представил новый набор ресурсов OLMo 1B и 7B

Институт Allen для искусственного интеллекта AI2 сделал значительный шаг в развитии открытых языковых моделей с запуском OLMo (Open Language Model). Этот фреймворк предоставляет исследователям и академикам полный доступ к данным, коду обучения, моделям и инструментам оценки, способствуя совместным исследованиям в области искусственного интеллекта. Начальный релиз включает несколько вариантов моделей с 7 миллиардами параметров и модель с 1 миллиардом параметров, обученных на не менее чем 2 трлн токенов.

Практические решения и ценность:

OLMo предназначен для расширения возможностей исследований в области искусственного интеллекта. Это позволяет изучать влияние конкретных подмножеств предварительного обучения на последующую производительность и исследовать новые методы предварительного обучения. Такой подход обеспечивает более глубокое понимание языковых моделей и их потенциальных нестабильностей, способствуя коллективному развитию науки об искусственном интеллекте.

Каждая модель OLMo поставляется с набором ресурсов, включая полные данные обучения, веса модели, код обучения, журналы и метрики. Фреймворк также предоставляет более 500 контрольных точек на базовую модель, адаптированные версии модели 7B (OLMo-7B-Instruct и OLMo-7B-SFT), код оценки и возможности тонкой настройки. Все компоненты выпущены под лицензией Apache 2.0, обеспечивая широкий доступ для научного сообщества.

AI2 провела сравнительный анализ OLMo с другими открытыми и частично открытыми моделями, включая Pythia Suite от EleutherAI, MPT модели от MosaicML, Falcon модели от TII и серию Llama от Meta. Результаты оценки показывают, что OLMo 7B конкурентоспособен с популярными моделями, такими как Llama 2, демонстрируя сопоставимую производительность на многих задачах генерации и понимания текста, немного уступая в некоторых задачах ответов на вопросы.

AI2 разработала структурированный процесс выпуска OLMo и связанных инструментов. Регулярные обновления и новые ресурсы общедоступны через шаблонные заметки о выпуске, которые распространяются через социальные сети, веб-сайт AI2 и рассылку. Такой подход обеспечивает информированность пользователей о последних разработках в экосистеме OLMo, включая Dolma и другие связанные инструменты.

Релиз OLMo в июле 2024 года принес значительные улучшения как для модели 1B, так и для модели 7B. OLMo 1B июля 2024 года показал увеличение показателя HellaSwag на 4,4 пункта, благодаря улучшенной версии набора данных Dolma и ступенчатому обучению. Аналогично, OLMo 7B июля 2024 года использовал новейший набор данных Dolma и двухступенчатую программу обучения, что постоянно добавляло 2-3 пункта производительности.

Ранние релизы, такие как OLMo 7B апреля 2024 года (ранее OLMo 7B 1.7), представили расширенную длину контекста от 2048 до 4096 токенов и обучение на наборе данных Dolma 1.7. Эта версия превзошла Llama 2-7B на MMLU и приблизилась к производительности Llama 2-13B, даже превзойдя ее на GSM8K. Такие постепенные улучшения демонстрируют приверженность AI2 постоянному усовершенствованию фреймворка и моделей OLMo.

Релиз OLMo является только началом амбициозных планов AI2 по открытым языковым моделям. Уже сейчас ведется работа над различными размерами моделей, модальностями, наборами данных, мерами безопасности и оценками для семейства OLMo. AI2 стремится совместно создать лучшую в мире открытую языковую модель, приглашая сообщество искусственного интеллекта принять участие в этой инновационной инициативе.

В двух словах, AI2 запустил OLMo, фреймворк открытой языковой модели, предоставляя исследователям полный доступ к данным, коду и инструментам оценки. Начальный релиз включает модели с 7 миллиардами и 1 миллиардом параметров, обученные на более чем 2 трлн токенов. OLMo способствует совместным исследованиям в области искусственного интеллекта, предлагая ресурсы, такие как полные данные обучения, веса модели и более 500 контрольных точек на базовую модель. Сравнительный анализ показал конкурентоспособность OLMo 7B с другими открытыми моделями. AI2 реализовала структурированный процесс выпуска, и недавние обновления принесли значительные улучшения. Эта инициатива является началом амбициозных планов AI2 по совместному созданию лучшей в мире открытой языковой модели.

Подробности, OLMo 1B июля 2024, OLMo 7B июля 2024, OLMo 7B июля 2024 SFT, OLMo 7B июля 2024 Instruct

Все права на этот проект принадлежат исследователям. Также не забудьте подписаться на наш Twitter и присоединиться к нашему Telegram-каналу и группе LinkedIn. Если вам нравится наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу более чем 47 тыс. подписчиков на ML SubReddit

Найдите предстоящие вебинары по искусственному интеллекту здесь

Arcee AI выпустил DistillKit: открытый инструмент для моделирования, преобразующий процесс дистилляции моделей для создания эффективных, высокопроизводительных небольших языковых моделей

Пост Allen Institute for AI (AI2) Released a New Bundle of OLMo 1B and 7B Assets появился сначала на MarkTechPost.


“`

Полезные ссылки: