Эта статья AI от MIT исследует масштабирование моделей глубокого обучения для химических исследований.

Исследование МИТ рассматривает масштабирование моделей глубокого обучения для химических исследований. Увеличение мощности нейронных сетей сулит новые возможности в химии. Это один шаг ближе к созданию более эффективных лекарств и материалов. Невероятно волнующее!

 Эта статья AI от MIT исследует масштабирование моделей глубокого обучения для химических исследований.

Исследование MIT: масштабирование моделей глубокого обучения для химических исследований

Введение

Исследователи из MIT провели исследование поведения масштабирования больших химических языковых моделей, сосредоточившись на генеративных предварительно обученных трансформерах (GPT) для химии (ChemGPT) и графовых нейронных сетях для моделирования силовых полей (GNN). В работе представлена концепция нейронного масштабирования, где производительность моделей характеризуется эмпирическими законами масштабирования, особенно в отношении потерь, масштабирующихся по степенному закону относительно количества параметров модели, размера набора данных или вычислительных ресурсов. Исследование рассматривает проблемы и возможности, связанные с масштабированием больших химических моделей, с целью предоставить понимание оптимального распределения ресурсов для улучшения потерь при предварительном обучении.

Описание исследования

Для моделирования химических языков исследователи разработали ChemGPT – модель в стиле GPT-3 на основе GPT-Neo, с токенизатором для встроенных строк с автоприменением (SELFIES) представлений молекул. Модель предварительно обучается на молекулах из PubChem, и исследуется влияние размера набора данных и модели на потери при предварительном обучении.

Помимо языковых моделей, в статье рассматриваются графовые нейронные сети для задач, требующих молекулярной геометрии и трехмерной структуры. Рассматриваются четыре типа графовых нейронных сетей, начиная от моделей с внутренними слоями, манипулирующими только E(3)-инвариантными величинами, до моделей, использующих E(3)-эквивариантные величины с увеличивающейся физически информированной архитектурой модели. Авторы оценивают возможности этих графовых нейронных сетей, определенные в терминах глубины и ширины, в ходе экспериментов по нейронному масштабированию.

Для эффективной обработки гиперпараметров оптимизации (HPO) для глубоких химических моделей в статье представлена техника, называемая оценкой производительности обучения (TPE), адаптированная из метода, используемого в архитектурах компьютерного зрения. TPE использует скорость обучения для оценки производительности в различных областях и размерах модели/набора данных. В статье подробно описаны экспериментальные настройки, включая использование графических процессоров NVIDIA Volta V100, PyTorch и распределенного параллельного ускорения для реализации и обучения модели.

Выводы

В целом, исследование представляет собой всестороннее исследование нейронного масштабирования в контексте больших химических языковых моделей, рассматривая как генеративные предварительно обученные трансформеры, так и графовые нейронные сети для моделирования силовых полей. Оно также представляет эффективный метод оптимизации гиперпараметров. Экспериментальные результаты и выводы способствуют пониманию эффективности использования ресурсов различных модельных архитектур в научных приложениях глубокого обучения.

Если вам нужны рекомендации по управлению ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.ru. Чтобы быть в курсе последних новостей об ИИ, подписывайтесь на наш Telegram-канал t.me/itinairu.

Посмотрите на практический пример решения на основе ИИ: бот для продаж от itinai.ru/aisales, созданный для автоматизации общения с клиентами круглосуточно и управления взаимодействием на всех этапах пути клиента.

Изучите, как искусственный интеллект может улучшить ваши продажи и общение с клиентами. Познакомьтесь с нашими решениями на сайте itinai.ru

Полезные ссылки: