ESM3: новая модель для анализа белковой последовательности

 EvolutionaryScale Introduces ESM3: A Frontier Multimodal Generative Language Model that Reasons Over the Sequence, Structure, and Function of Proteins

“`html

Программа генерации белков ESM3: практические применения и ценность

Программа генерации белков ESM3: новые возможности в инженерии белков

Исследователи из Evolutionary Scale PBC, Arc Institute и Университета Калифорнии разработали ESM3 – передовую генеративную языковую модель для белков. ESM3 способна имитировать эволюционные процессы для создания функциональных белков, значительно отличающихся от известных. Она интегрирует последовательность, структуру и функцию для генерации белков по сложным запросам. ESM3 продемонстрировала свой потенциал в инженерии белков, предлагая креативные решения для биологических задач.

Уникальные возможности ESM3

ESM3 – это сложная генеративная языковая модель, предназначенная для понимания и предсказания последовательности, структуры и функции белков с использованием токенизированных данных. Она применяет метод маскированного языкового моделирования для предсказания маскированных частей белковых данных при различных уровнях маскировки. ESM3 интегрирует последовательность, структуру и функцию в единое латентное пространство и обрабатывает эти модальности через блоки трансформации с геометрическим вниманием. Обученная на обширных наборах данных, включающих 2,78 миллиарда белков и 236 миллионов структур, ESM3 увеличивается до 98 миллиардов параметров. Ее токенизация эффективно захватывает атомные детали, обеспечивая высокую точность в генерации и восстановлении белковых структур.

Практическое применение ESM3

ESM3, обученная на последовательностях белков, успешно предсказывает и генерирует их структуры и функции. Она обрабатывает эти аспекты через блоки трансформации с геометрическим вниманием, обучаясь на обширном натуральном и синтетическом наборах данных о белках. Генеративные возможности ESM3 позволяют ей создавать разнообразные высококачественные белки, значительно отличающиеся от известных естественных белков. Она отлично справляется с выполнением запросов из различных источников, таких как последовательность или структурные детали, и может инновировать в пределах этих ограничений, производя новые дизайны белков. Эта универсальность способствует развитию передового программного проектирования белков и исследованию за пределами естественных эволюционных шаблонов.

Улучшение возможностей ESM3

Масштабирование и доработка моделей ESM3 значительно улучшают их способность к генерации белков, соответствующих сложным запросам, таким как конкретная атомная координация и структурные мотивы. Хотя базовые модели, обученные на обширных наборах данных о белках, показывают хорошие результаты, доработка с использованием предпочтительных данных — сопоставление высококачественных и низкокачественных результатов — раскрывает скрытые возможности. Это выравнивание, особенно в больших моделях, удваивает уровень успешной генерации точных белковых структур и увеличивает разнообразие успешных решений. Этот процесс демонстрирует, что большие модели обладают большей врожденной способностью к адаптации к сложным задачам, что приводит к улучшению производительности при решении конкретных задач.

Эмуляция эволюционных путей

ESM3, языковая модель, обученная на последовательностях белков, сгенерировала зеленый флуоресцентный белок (GFP), минимально сходный с существующими. Задав модели критические остатки и структуры, необходимые для функции GFP, ESM3 создала тысячи потенциальных дизайнов. Среди них был обнаружен уникальный флуоресцентный белок esmGFP, который значительно отличался от известных белков и обладал естественной флуоресценцией, характерной для GFP. Этот процесс повторяет эволюционные пути, предполагая, что ESM3 способна исследовать пространства белков, которые еще не были исследованы эволюцией, эффективно имитируя миллионы лет эволюционного потенциала при создании новых функциональных белков.

Подробности и исследование доступны здесь. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу более чем 45 тыс. человек на Reddit.

Оригинал статьи опубликован на портале MarkTechPost.


“`

Полезные ссылки: