Исследователи из Токийского института технологий представили ProtHyena: модель языка для анализа данных о белках

Исследователи Токийского института технологий представили ProtHyena: быструю и эффективную модель для изучения белков на основе аминокислот с разрешением в одну аминокислоту. Разработка имеет потенциал для улучшения анализа белковых последовательностей и прогнозирования их структуры.

 Исследователи из Токийского института технологий представили ProtHyena: быструю и эффективную модель языка белков на основе протеинов с разрешением одиночных аминокислот.

Протеины необходимы для различных клеточных функций и обеспечивают жизненно важные аминокислоты для людей. Понимание протеинов критично для биологии и здоровья человека, требуя продвинутых моделей машинного обучения для их представления. Самообучение, вдохновленное обработкой естественного языка, значительно улучшило представление последовательностей протеинов. Однако существующие модели нуждаются в помощи при обработке длинных последовательностей и поддержании контекстного понимания. Стратегии, такие как линеаризованные и разреженные аппроксимации, использовались для решения вычислительных задач, но часто компрометируют экспрессивность. Несмотря на продвижение, модели с более чем 100 миллионами параметров борются с более длинными входными данными. Роль отдельных аминокислот представляет уникальное вызов, требующий тонкого подхода для точного моделирования.

ProtHyena – быстрая и ресурсоэффективная модель, которая интегрирует оператор Hyena для анализа данных о протеинах. В отличие от традиционных методов на основе внимания, ProtHyena разработана для захвата как долгосрочного контекста, так и одиночного разрешения аминокислот в реальных последовательностях протеинов. Исследователи предварительно обучили модель, используя набор данных Pfam. Они настроили ее для различных задач, связанных с протеинами, достигнув производительности, сравнимой или даже превосходящей современные подходы в некоторых случаях.

Традиционные языковые модели, основанные на архитектурах Transformer и BERT, демонстрируют эффективность в различных приложениях. Однако они ограничены квадратичной вычислительной сложностью механизма внимания, что ограничивает их эффективность и длину контекста, который они могут обрабатывать. Были разработаны различные методы для решения высокой вычислительной стоимости самовнимания для длинных последовательностей, такие как факторизованное самовнимание, используемое в разреженных трансформерах, и Performer, который декомпозирует матрицу самовнимания. Эти методы позволяют обрабатывать более длинные последовательности, но часто сопровождаются уступкой в экспрессивности модели.

ProtHyena – это подход, который использует оператор Hyena для решения ограничений механизмов внимания в традиционных языковых моделях. ProtHyena использует естественный словарь протеинов, рассматривая каждую аминокислоту как отдельный токен, и включает специальные символьные токены для заполнения, разделения и неизвестных символов. Оператор Hyena определяется рекуррентной структурой, включающей длинные свертки и поэлементное управление. В исследовании также сравнивается ProtHyena с вариантной моделью, называемой ProtHyena-bpe, которая использует кодирование байтовых пар (BPE) для сжатия данных и использует больший размер словаря.

ProtHyena решает ограничения традиционных моделей на основе архитектур Transformer и BERT. ProtHyena достигла результатов, сопоставимых с современными моделями в различных задачах, включая удаленную гомологию и прогнозирование флуоресценции, превосходя современные модели, такие как TAPE Transformer и SPRoBERTa. Что касается удаленной гомологии, ProtHyena достигла самой высокой точности 0,317, превосходя другие модели, которые набрали 0,210 и 0,230. Для прогнозирования флуоресценции ProtHyena продемонстрировала устойчивость с коэффициентом Спирмена r равным 0,678, показывая свою способность к захвату сложных свойств протеинов. ProtHyena также показала многообещающие результаты в задачах прогнозирования вторичной структуры (SSP) и стабильности, хотя предоставленные источники не упоминали конкретных метрик.

В заключение, ProtHyena, модель языка протеинов, интегрирует оператор Hyena для решения вычислительных проблем, с которыми сталкиваются модели на основе механизмов внимания. ProtHyena эффективно обрабатывает длинные последовательности протеинов и достигает передовых результатов в различных задачах, превосходя традиционные модели с использованием лишь доли необходимых параметров. Обширное предварительное обучение и настройка ProtHyena на обширном наборе данных Pfam в десяти различных задачах демонстрируют его способность точно и эффективно захватывать сложную биологическую информацию. Применение оператора Hyena позволяет ProtHyena работать с субквадратичной вычислительной сложностью, предлагая значительный прорыв в анализе последовательностей протеинов.

Если вам нужны рекомендации по управлению ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.com. Чтобы быть в курсе последних новостей об ИИ, подписывайтесь на наш Telegram-канал t.me/itinairu.

Изучите, как искусственный интеллект может улучшить ваши продажи и общение с клиентами. Познакомьтесь с нашими решениями на сайте itinai.ru.

Полезные ссылки: