Как большие языковые модели меняют понимание последовательностей белков

 Unlocking the Language of Proteins: How Large Language Models Are Revolutionizing Protein Sequence Understanding

“`html

Преобразование языка белков: как большие языковые модели революционизируют понимание последовательностей белков

Исследователи обнаружили параллели между последовательностями белков и естественным языком из-за их последовательной структуры, что привело к развитию моделей глубокого обучения для обеих областей. Большие языковые модели (LLM) проявили себя в задачах обработки естественного языка (NLP), и этот успех вдохновил попытки адаптировать их для понимания белков. Однако адаптация сталкивается с проблемой: существующим наборам данных не хватает прямых корреляций между последовательностями белков и текстовыми описаниями, что затрудняет эффективное обучение и оценку LLM для понимания белков. Несмотря на прогресс в многослойных моделях (MMLM), отсутствие комплексных наборов данных, интегрирующих последовательности белков с текстовым контентом, ограничивает полное использование этих моделей в белковой науке.

Набор данных ProteinLMDataset и бенчмарк ProteinLMBench

Исследователи из нескольких учреждений, включая Johns Hopkins и UNSW Sydney, создали набор данных ProteinLMDataset для улучшения понимания LLM последовательностей белков. Этот набор данных содержит 17,46 миллиарда токенов для предварительного самообучения и 893 тысячи инструкций для контролируемой настройки. Они также разработали ProteinLMBench, первый бенчмарк с 944 вручную проверенными вопросами с множественным выбором для оценки понимания белков в LLM. Набор данных и бенчмарк направлены на устранение разрыва в интеграции белково-текстовых данных, позволяя LLM понимать последовательности белков без дополнительных кодировщиков и генерировать точные знания о белках с использованием нового подхода Enzyme Chain of Thought (ECoT).

Проблемы существующих наборов данных и бенчмарков

Обзор литературы выявляет ключевые ограничения существующих наборов данных и бенчмарков для NLP и последовательностей белков. Существует необходимость в более комплексной, многофункциональной и мультидоменной оценке китайско-английских наборов данных, поскольку существующие бенчмарки часто ограничены географически и требуют большей интерпретируемости. В наборах данных по последовательностям белков основные ресурсы, такие как UniProtKB и RefSeq, сталкиваются с проблемами в полном представлении разнообразия белков и точной аннотации данных, с учетом предвзятостей и ошибок от сообщественных вкладов и автоматизированных систем. В то время как комплексные базы данных по дизайну белков, такие как KEGG и STRING, ограничены предвзятостями, ресурсоемкой кураторской работой и сложностями интеграции разнообразных источников данных.

Диверсификация ProteinLMDataset и ProteinLMBench

Набор данных ProteinLMDataset разделен на самообучающиеся и контролируемые компоненты. Самообучающийся набор данных включает китайско-английские научные тексты, пары последовательностей белков и английских текстов из PubMed и UniProtKB, а также обширные записи из базы данных PMC, предоставляя более 10 миллиардов токенов. Контролируемый компонент для настройки содержит 893 тысячи инструкций по семи сегментам, таким как функциональность ферментов и участие в заболеваниях, в основном извлеченных из UniProtKB. ProteinLMBench, бенчмарк для оценки, содержит 944 тщательно отобранных вопроса с множественным выбором о свойствах и последовательностях белков. Этот метод сбора набора данных обеспечивает комплексное представление, фильтрацию и токенизацию для эффективного обучения и оценки LLM в белковой науке.

Преимущества ProteinLMDataset и ProteinLMBench

Набор данных ProteinLMDataset и бенчмарк ProteinLMBench разработаны для комплексного понимания последовательностей белков. Набор данных разнообразен, с токенами от 21 до более 2 миллионов символов, собранных из множества источников, включая китайско-английские текстовые пары, аннотации PubMed и UniProtKB. Самообучающиеся данные в основном состоят из последовательностей белков и научных текстов, в то время как контролируемый компонент для настройки охватывает семь сегментов, такие как функциональность ферментов и участие в заболеваниях, с длиной токенов от 65 до 70 500. ProteinLMBench включает 944 сбалансированных вопроса с множественным выбором для оценки производительности модели. Тщательные проверки безопасности и фильтрация обеспечивают качество и целостность данных. Результаты экспериментов показывают, что комбинирование самообучения с настройкой улучшает точность модели, подчеркивая эффективность набора данных.

Заключение

Набор данных ProteinLMDataset и бенчмарк ProteinLMBench предоставляют надежную основу для обучения и оценки языковых моделей на последовательностях белков и двуязычных текстах. Включая разнообразные источники и китайско-английские текстовые пары, набор данных улучшает мультиязычное и кросс-языковое понимание характеристик белков. Эксперименты демонстрируют значительное улучшение точности модели при настройке, особенно при использовании как самообучающихся, так и контролируемых наборов данных. Эта работа устраняет разрыв в адаптации LLM для белковой науки, демонстрируя потенциал для трансформации биологических исследований и приложений. Модель InternLM2-7B, обученная на этом наборе данных, превосходит GPT-4 в задачах понимания белков.

Проверьте статью и набор данных. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему 44k+ ML SubReddit.

Статья опубликована на портале MarkTechPost.

“`

Полезные ссылки: