✅ Исследователи из Токийского института технологий представили ProtHyena: модель языка для анализа данных о белках

Исследователи Токийского института технологий представили ProtHyena: быструю и эффективную модель для изучения белков на основе аминокислот с разрешением в одну аминокислоту. Разработка имеет потенциал для улучшения анализа белковых последовательностей и прогнозирования их структуры.

Протеины необходимы для различных клеточных функций и обеспечивают жизненно важные аминокислоты для людей. Понимание протеинов критично для биологии и здоровья человека, требуя продвинутых моделей машинного обучения для их представления. Самообучение, вдохновленное обработкой естественного языка, значительно улучшило представление последовательностей протеинов. Однако существующие модели нуждаются в помощи при обработке длинных последовательностей и поддержании контекстного понимания. Стратегии, такие как линеаризованные и разреженные аппроксимации, использовались для решения вычислительных задач, но часто компрометируют экспрессивность. Несмотря на продвижение, модели с более чем 100 миллионами параметров борются с более длинными входными данными. Роль отдельных аминокислот представляет уникальное вызов, требующий тонкого подхода для точного моделирования.

ProtHyena — быстрая и ресурсоэффективная модель, которая интегрирует оператор Hyena для анализа данных о протеинах. В отличие от традиционных методов на основе внимания, ProtHyena разработана для захвата как долгосрочного контекста, так и одиночного разрешения аминокислот в реальных последовательностях протеинов. Исследователи предварительно обучили модель, используя набор данных Pfam. Они настроили ее для различных задач, связанных с протеинами, достигнув производительности, сравнимой или даже превосходящей современные подходы в некоторых случаях.

Традиционные языковые модели, основанные на архитектурах Transformer и BERT, демонстрируют эффективность в различных приложениях. Однако они ограничены квадратичной вычислительной сложностью механизма внимания, что ограничивает их эффективность и длину контекста, который они могут обрабатывать. Были разработаны различные методы для решения высокой вычислительной стоимости самовнимания для длинных последовательностей, такие как факторизованное самовнимание, используемое в разреженных трансформерах, и Performer, который декомпозирует матрицу самовнимания. Эти методы позволяют обрабатывать более длинные последовательности, но часто сопровождаются уступкой в экспрессивности модели.

ProtHyena — это подход, который использует оператор Hyena для решения ограничений механизмов внимания в традиционных языковых моделях. ProtHyena использует естественный словарь протеинов, рассматривая каждую аминокислоту как отдельный токен, и включает специальные символьные токены для заполнения, разделения и неизвестных символов. Оператор Hyena определяется рекуррентной структурой, включающей длинные свертки и поэлементное управление. В исследовании также сравнивается ProtHyena с вариантной моделью, называемой ProtHyena-bpe, которая использует кодирование байтовых пар (BPE) для сжатия данных и использует больший размер словаря.

ProtHyena решает ограничения традиционных моделей на основе архитектур Transformer и BERT. ProtHyena достигла результатов, сопоставимых с современными моделями в различных задачах, включая удаленную гомологию и прогнозирование флуоресценции, превосходя современные модели, такие как TAPE Transformer и SPRoBERTa. Что касается удаленной гомологии, ProtHyena достигла самой высокой точности 0,317, превосходя другие модели, которые набрали 0,210 и 0,230. Для прогнозирования флуоресценции ProtHyena продемонстрировала устойчивость с коэффициентом Спирмена r равным 0,678, показывая свою способность к захвату сложных свойств протеинов. ProtHyena также показала многообещающие результаты в задачах прогнозирования вторичной структуры (SSP) и стабильности, хотя предоставленные источники не упоминали конкретных метрик.

В заключение, ProtHyena, модель языка протеинов, интегрирует оператор Hyena для решения вычислительных проблем, с которыми сталкиваются модели на основе механизмов внимания. ProtHyena эффективно обрабатывает длинные последовательности протеинов и достигает передовых результатов в различных задачах, превосходя традиционные модели с использованием лишь доли необходимых параметров. Обширное предварительное обучение и настройка ProtHyena на обширном наборе данных Pfam в десяти различных задачах демонстрируют его способность точно и эффективно захватывать сложную биологическую информацию. Применение оператора Hyena позволяет ProtHyena работать с субквадратичной вычислительной сложностью, предлагая значительный прорыв в анализе последовательностей протеинов.

Если вам нужны рекомендации по управлению ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.com. Чтобы быть в курсе последних новостей об ИИ, подписывайтесь на наш Telegram-канал t.me/itinairu.

Изучите, как искусственный интеллект может улучшить ваши продажи и общение с клиентами. Познакомьтесь с нашими решениями на сайте itinai.ru.

Исследователи из Токийского института технологий представили ProtHyena: модель языка для анализа данных о белках

Полезные ссылки:

Запустите свой ИИ проект бесплатно

Монетизация блога по саморазвитию через AI

AI для риелторов — как увеличить заявки без менеджера

AI-боты в онлайн-образовании

Инфлюенсер и AI — монетизация личного бренда

ИИ-агенты искусственный интеллект онлайн для бизнеса

ИИ-Аналитик социальных сетей : генерация стратегий контента

ИИ-Агент для автоматизации медицинских записей : структурирование данных пациентов

ИИ-Агент по автоматизации отчетности : генерация финансовых и операционных отчетов

ИИ-Специалист по соблюдению норм : автоматизация проверки документов

Как правильно оформить лист согласования документа: ИИ создаст шаблон с маршрутами и подписями

Как построить карьерную карту в формате growth map: искусственный интеллект составит карту развития по уровням

Как составить Use Case по стандарту UML 2.5: ИИ предложит акторов, шаги сценария и исключения

Как определить риск проекта и составить mitigation plan: ИИ предложит карту рисков и меры

Как встречать деловых гостей без ошибок: ИИ составит сценарий встречи и напоминание по этикету

Как проверить контрагента перед заключением договора: искусственный интеллект составит чек-лист по 115-ФЗ

Лучший ИИ онлайн

Искусственный интеллект GitHub теперь бесплатен для разработчиков VS Code

Создание AI-бота для вопросов и ответов на веб-страницах с использованием открытых моделей AI

Пошаговое руководство по преобразованию FastAPI приложения в MCP сервер

Обзор методов глубокого обучения для автономного вождения

Piiranha-v1: Модель для обнаружения PII с точностью детекции токенов 98,27%

Snowflake AI Research выпустил SwiftKV: новый подход, который снижает затраты на вывод Meta Llama LLMs на 75% в Cortex AI.

Исследователи ByteDance представили Tarsier2: крупную модель для понимания видео с 7 миллиардами параметров.

Подписка

Карта сайта

Реклама

Контакты

Пресс-релизы

Доступность