“`html
Улучшение производительности LLM в медицинской сфере через графовое усиление извлечения (RAG)
Большие языковые модели (LLM), такие как ChatGPT и GPT-4 от OpenAI, значительно развиваются и преобразуют область обработки естественного языка (NLP) и генерации естественного языка (NLG), открывая путь для создания множества приложений искусственного интеллекта (AI), необходимых для повседневной жизни. Несмотря на эти улучшения, LLM все еще испытывают трудности при работе в областях, таких как финансы, право и медицина, требующих специализированных знаний.
Практические решения и ценность
Команда исследователей из Университета Оксфорда разработала уникальную AI-структуру под названием MedGraphRAG для улучшения производительности больших языковых моделей в медицинской сфере. Основанные на доказательствах результаты, которые производит эта структура, существенны для повышения безопасности и надежности LLM при работе с чувствительными медицинскими данными.
Гибридный статический-семантический анализ документов – уникальный подход к обработке документов, который лежит в основе системы MedGraphRAG. Этот метод более эффективно сохраняет контекст, чем стандартные техники, что является решающим шагом в областях, таких как медицина, где корректный поиск информации и производство ответов зависят от глубокого понимания контекста.
Далее происходит процесс извлечения важных сущностей из текста, после чего строится трехуровневая иерархическая графовая структура с использованием извлеченных элементов. Этот граф направлен на установление связи между сущностями и базовыми медицинскими знаниями, полученными из надежных медицинских словарей и статей.
Сущности образуют метаграфы из-за своих связей, которые являются наборами связанных сущностей с похожими семантическими свойствами. Затем эти метаграфы объединяются для формирования всеохватывающего глобального графа. Предоставляемая этим глобальным графом обширная база знаний позволяет LLM точно извлекать информацию и генерировать ответы.
Техника U-retrieve обеспечивает процедуру извлечения MedGraphRAG. Этот подход призван найти баланс между эффективностью индексации и извлечения соответствующих данных и глобальным пониманием модели широкого контекста.
Проведено обширное исследование для подтверждения эффективности MedGraphRAG. Убедительные результаты показали, что техника создания иерархического графа MedGraphRAG регулярно превосходила передовые модели на различных медицинских бенчмарках. Также было подтверждено, что ответы, созданные MedGraphRAG, имели ссылки на оригинальную документацию, тем самым улучшая надежность и доверие LLM в реальных медицинских средах.
Команда подвела итоги своих основных достижений:
- Представлена комплексная конвейерная система, использующая графовое усиление извлечения (RAG), специально разработанная для медицинской области.
- Введена уникальная техника построения иерархических графов и извлечения данных, позволяющая большим языковым моделям использовать всеобъемлющие конфиденциальные медицинские данные для эффективного создания ответов на основе доказательств.
- Техника показала стабильность и эффективность, надежно достигая передовых показателей производительности через тщательные проверки на общих медицинских бенчмарках.
В заключение, MedGraphRAG является большим шагом в использовании LLM в медицинской отрасли. Эта структура увеличивает безопасность и надежность LLM при работе с чувствительными медицинскими данными, а также улучшает точность создаваемых ими ответов. Она подчеркивает результаты, основанные на доказательствах, и использует передовую графовую систему извлечения.
Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему Telegram-каналу и группе в LinkedIn. Если вам нравится наша работа, вам понравится наш новостной бюллетень.
Не забудьте присоединиться к нашему подпреддиту о машинном обучении.
Найдите предстоящие вебинары по ИИ здесь.
Arcee AI выпустила DistillKit: открытый инструмент для моделирования дистилляции, который преобразует модель дистилляции для создания эффективных маленьких языковых моделей.