“`html
Прогресс в химических представлениях и искусственный интеллект в поиске лекарств:
Применение AI в поиске лекарств:
В AI-ориентированных исследованиях по поиску лекарств химические представления играют ключевую роль. Молекулярные графы, наиболее распространенное машинно-читаемое представление, и различные другие обозначения используются для кодирования структурной информации для вычислительного анализа. Этот обзор подчеркивает важность этих представлений в AI-приложениях, предоставляя примеры использования техник AI, таких как модели ML, в химинформатике и поиске лекарств. Обзор является важным руководством для исследователей и студентов в областях химии, биоинформатики и компьютерных наук, подчеркивая зависимость выбора представления от конкретной задачи. Несмотря на то, что обзор не является исчерпывающим, он направляет читателей на дальнейшую литературу по применению AI в химинформатике, демонстрируя, как современные вычислительные техники революционизируют поиск лекарств, улучшая возможности обработки и анализа данных.
Введение в молекулярные графовые представления:
Понимание молекулярных графов является важным для освоения химических представлений, используемых в поиске лекарств. Молекулярный граф отображает атомы на узлы и связи на ребра, представляя молекулы структурированным образом. Формально определенный как набор узлов (атомов) и ребер (связей), эти графы могут быть визуализированы с использованием различного программного обеспечения. Узлы и ребра часто кодируются в матрицы: матрица смежности для связности, матрица характеристик узлов для идентификации атомов и матрица характеристик ребер для идентификации связей. Алгоритмы обхода графов обеспечивают последовательность узлов, что критически важно для генерации надежных представлений. Эта гибкость позволяет кодировать 3D информацию, предлагая преимущества перед линейными обозначениями.
Таблицы связей и форматы файлов MDL:
Таблицы связей (Ctabs) и форматы файлов MDL (теперь BIOVIA) имеют важное значение в представлении молекулярных графов. Ctabs состоят из блоков счетчиков, атомов, связей, списков атомов, Stext и свойств, эффективно описывая молекулярные структуры путем указания деталей атомов и связей. Они избегают явного представления водорода, что уменьшает размер файла. Форматы MDL, построенные на Ctabs, включают Molfiles для одномолекулярных и расширяются до файлов SD, RXN, RD и RG для дополнительных данных и реакций. Эти форматы широко используются для компактного, систематического хранения и передачи химической информации, поддерживая различные приложения в химинформатике.
Современные обозначения: SMILES и InChI:
SMILES, разработанный в 1988 году, является интуитивным и популярным обозначением для кодирования молекулярных структур. Он назначает номера атомам и обходит молекулярный граф с помощью поиска в глубину, позволяя множественные представления одной и той же молекулы. Уникальные SMILES могут быть определены через канонизацию. SMILES могут кодировать стереохимию и другие сложные структуры, но испытывают трудности с органометаллическими соединениями и ионными солями. Международный химический идентификатор (InChI), представленный в 2006 году, предоставляет стандартное, открытое каноническое обозначение с несколькими уровнями для подробного молекулярного представления. InChIKeys предлагают уникальные, доступные для поиска, хешированные версии InChIs, улучшая доступность химической информации.
Резюме химических представлений:
Химические представления охватывают различные методы моделирования молекул, реакций и макромолекул. Структурные ключи, такие как MACCS и CATS, кодируют наличие конкретных химических групп. Хешированные отпечатки, такие как Daylight и ECFP, используют хеш-функции для представления молекулярных шаблонов. Реакции описываются с использованием форматов, таких как Reaction SMILES, RInChI и CGR. Макромолекулы, включая белки и пептиды, используют последовательностные обозначения и структуры из репозиториев, таких как PDB. Эти разнообразные методы облегчают точный анализ и прогнозирование в химинформатике и поиске лекарств.
Графические представления для молекул и макромолекул:
Графические представления молекул, важные для визуализации и анализа, включают 2D изображения и 3D модели. 2D изображения показывают скелетные структуры, часто с использованием стандартизированных рекомендаций IUPAC, но все еще сталкиваются с проблемами в компоновке и рендеринге. Инструменты, такие как RDKit и CDK, улучшили 2D визуализации. Для макромолекул изображения сосредотачиваются на полимерных или пептидных структурах, с использованием инструментов, таких как Pfizer Macromolecule Editor, для визуализации. 3D изображения, с использованием программного обеспечения, такого как Avogadro и PyMOL, включают модели шариков и палочек, карикатурные и модели Ван-дер-Ваальса, облегчая исследования в докинге, взаимодействиях белок-лиганд и механистических исследованиях. Эти представления улучшают понимание химинформатики и поиска лекарств.
Источник изображения: [Image source]
Проверьте Paper 1 и Paper 2. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Твиттер.
Присоединяйтесь к нашему Telegram каналу и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наша рассылка. Не забудьте присоединиться к нашему 46k+ ML SubReddit.
Пост Advances in Chemical Representations and Artificial Intelligence AI: Transforming Drug Discovery был опубликован на MarkTechPost.