Исследование МИТ рассматривает масштабирование моделей глубокого обучения для химических исследований. Увеличение мощности нейронных сетей сулит новые возможности в химии. Это один шаг ближе к созданию более эффективных лекарств и материалов. Невероятно волнующее!
Исследование MIT: масштабирование моделей глубокого обучения для химических исследований
Введение
Исследователи из MIT провели исследование поведения масштабирования больших химических языковых моделей, сосредоточившись на генеративных предварительно обученных трансформерах (GPT) для химии (ChemGPT) и графовых нейронных сетях для моделирования силовых полей (GNN). В работе представлена концепция нейронного масштабирования, где производительность моделей характеризуется эмпирическими законами масштабирования, особенно в отношении потерь, масштабирующихся по степенному закону относительно количества параметров модели, размера набора данных или вычислительных ресурсов. Исследование рассматривает проблемы и возможности, связанные с масштабированием больших химических моделей, с целью предоставить понимание оптимального распределения ресурсов для улучшения потерь при предварительном обучении.
Описание исследования
Для моделирования химических языков исследователи разработали ChemGPT – модель в стиле GPT-3 на основе GPT-Neo, с токенизатором для встроенных строк с автоприменением (SELFIES) представлений молекул. Модель предварительно обучается на молекулах из PubChem, и исследуется влияние размера набора данных и модели на потери при предварительном обучении.
Помимо языковых моделей, в статье рассматриваются графовые нейронные сети для задач, требующих молекулярной геометрии и трехмерной структуры. Рассматриваются четыре типа графовых нейронных сетей, начиная от моделей с внутренними слоями, манипулирующими только E(3)-инвариантными величинами, до моделей, использующих E(3)-эквивариантные величины с увеличивающейся физически информированной архитектурой модели. Авторы оценивают возможности этих графовых нейронных сетей, определенные в терминах глубины и ширины, в ходе экспериментов по нейронному масштабированию.
Для эффективной обработки гиперпараметров оптимизации (HPO) для глубоких химических моделей в статье представлена техника, называемая оценкой производительности обучения (TPE), адаптированная из метода, используемого в архитектурах компьютерного зрения. TPE использует скорость обучения для оценки производительности в различных областях и размерах модели/набора данных. В статье подробно описаны экспериментальные настройки, включая использование графических процессоров NVIDIA Volta V100, PyTorch и распределенного параллельного ускорения для реализации и обучения модели.
Выводы
В целом, исследование представляет собой всестороннее исследование нейронного масштабирования в контексте больших химических языковых моделей, рассматривая как генеративные предварительно обученные трансформеры, так и графовые нейронные сети для моделирования силовых полей. Оно также представляет эффективный метод оптимизации гиперпараметров. Экспериментальные результаты и выводы способствуют пониманию эффективности использования ресурсов различных модельных архитектур в научных приложениях глубокого обучения.