Оценка надежности и справедливости инструкционно настроенных языковых моделей для клинических задач: влияние на вариабельность результатов и демографическую справедливость

 Evaluating the Robustness and Fairness of Instruction-Tuned LLMs in Clinical Tasks: Implications for Performance Variability and Demographic Fairness

“`html

Оценка устойчивости и справедливости инструкционно настроенных LLM в клинических задачах: Влияние изменчивости производительности и справедливости по демографии

Инструкционно настроенные LLM могут решать различные задачи с использованием естественных языковых инструкций, но их производительность чувствительна к формулировке инструкций. Это особенно важно в здравоохранении, где врачи, которым может понадобиться больше опыта, требуют надежных результатов. Устойчивость LLM к вариациям инструкций в клинических задачах подвергается сомнению.

Практические решения и ценность

Исследователи собрали инструкции от врачей для оценки чувствительности семи общих и специализированных LLM к формулировке естественных инструкций. Были обнаружены существенные различия в производительности между моделями, особенно среди моделей, обученных на клинических данных. Различия в формулировке также влияли на справедливость, с наблюдаемыми расхождениями в производительности между демографическими группами в задачах, таких как прогнозирование смертности. Исследование подчеркивает проблему устойчивости LLM в клинических задачах и ее значение для справедливости, подчеркивая необходимость дальнейших исследований в этой области.

Инструкционно настроенные LLM были улучшены для решения различных задач с минимальными примерами или инструкциями благодаря техникам, таким как обучение с подкреплением от обратной связи человека и донастройка с помеченными данными. Были созданы большие наборы данных для настройки инструкций, такие как Flan 2021 и Super-NaturalInstructions. Однако LLM чувствительны к построению запросов, что влияет на производительность в режимах с небольшим количеством и нулевым количеством примеров. Общие LLM могут решать клинические задачи, хотя более маленькие, донастроенные модели часто проявляют себя лучше. Проблемы с конфиденциальностью ограничивают высококачественные клинические наборы данных, в результате исследователи используют синтетические данные, хотя обычно общие модели превосходят специализированные.

Исследование рассматривает устойчивость LLM к естественным вариациям инструкций для клинических задач. Было проведено десять клинических задач классификации и шесть задач извлечения информации с использованием данных из MIMIC-III, i2b2 и n2c2. Разнообразная группа медицинских специалистов написала инструкции для каждой задачи. Семь LLM, включая модели общего назначения и специализированные модели, были оценены по производительности, вариации и справедливости на этих инструкциях. Модели были оценены с использованием нулевого вывода с определенной длиной последовательности, обрабатывая записи порциями. Для измерения эффективности использовались оценки AUROC для задач классификации и оценки F1 для задач извлечения.

Результаты по прогнозированию смертности и извлечению лекарств показывают значительную изменчивость производительности из-за различных, но семантически эквивалентных инструкций. В задаче прогнозирования смертности модель LLAMA 2 (13B) превзошла другие модели, в то время как в других задачах классификации превосходящую производительность показала модель MISTRAL. В задаче извлечения лекарств модель LLAMA 2 (7B) в среднем показала лучшие результаты, хотя клинические модели проявились смешанно. Анализ производительности демографических подгрупп показал различия, причем недостаточно точные прогнозы чаще получали не белые пациенты и женщины. Эта изменчивость в инструкциях влияет на справедливость, подчеркивая, что незначительные изменения в формулировке могут диспропорционально влиять на определенные демографические группы. Общие модели домена в целом показывали лучшие результаты по сравнению с клиническими моделями во всех задачах.

В заключение, исследование оценивает инструкционно настроенные LLM с открытым исходным кодом для клинических задач классификации и извлечения информации на основе клинических записей ЭМК, с фокусом на устойчивости к вариациям инструкций от медицинских специалистов. Двенадцать практикующих специалистов из различных сфер написали инструкции для 16 клинических функций. Ключевые результаты включают: значительную изменчивость производительности LLM в зависимости от инструкций от различных экспертов; в целом специализированные модели проявляются хуже по сравнению с общими моделями; и изменчивость инструкций влияет на справедливость, что приводит к различным уровням справедливости в результатах. Практики должны быть осторожны при использовании инструкционно настроенных LLM в критических клинических задачах, поскольку незначительные различия в формулировке могут значительно влиять на результаты. Это подчеркивает необходимость улучшения устойчивости LLM.

Ознакомьтесь с статьей. Вся заслуга за это исследование принадлежит исследователям этого проекта.

Не забудьте подписаться на наш Twitter и присоединиться к нашему каналу в Telegram и LinkedIn. Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу в Reddit.

Найдите предстоящие вебинары по ИИ здесь

Опубликовано на MarkTechPost

Хотите улучшить бизнес с помощью искусственного интеллекта? Свяжитесь с нами

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, обратитесь к нам для получения решений наших AI Lab itinai.ru.

Практические решения и ценность

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь, какие ключевые показатели эффективности (KPI) вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на Telegram. Следите за новостями о ИИ в нашем Телеграм-канале itinainews или в Twitter itinairu45358.

Попробуйте AI Sales Bot. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru будущее уже здесь!


“`

Полезные ссылки: