Исследователи рассматривают возможность обучения LLM навыкам детектива, их способности извлекать информацию. Могут ли эти модели стать новым Шерлоком Холмсом? Узнайте больше из статьи. #ЯзыковыеМодели #ДетективныеНавыки
Одной из самых важных областей обработки естественного языка (NLP) является извлечение информации (IE), которое преобразует неструктурированный текст в структурированные знания. Многие последующие деятельности зависят от IE как от предпосылки, включая построение графов знаний, логическое рассуждение и ответы на вопросы. Выделение именованных сущностей, извлечение отношений и извлечение событий – три основных компонента работы IE. В то же время появились Llama и другие большие языковые модели, революционизирующие NLP своими исключительными способностями понимания, генерации и обобщения текста.
Таким образом, вместо извлечения структурной информации из обычного текста, подходы генеративного IE, использующие LLM для создания структурной информации, недавно стали очень популярны. Благодаря их способности эффективно обрабатывать схемы с миллионами сущностей без потери производительности, эти методы превосходят дискриминационные методы в реальных приложениях.
Новое исследование Университета науки и технологий Китая и Гонконгского городского университета и Центра исследований Джарвис исследует LLM для генеративного IE. Для этого они классифицируют текущие представительные методы в основном с использованием двух таксономий:
– Таксономия обучающих парадигм, классифицирующая различные новые подходы, использующие LLM для генеративного IE
– Таксономия многочисленных подзадач IE, пытающаяся классифицировать различные типы информации, которые могут быть извлечены индивидуально или единообразно с использованием LLM.
Кроме того, они представляют исследование, которое ранжирует LLM для IE на основе их производительности в конкретных областях. Они также предлагают глубокий анализ ограничений и будущих возможностей применения LLM для генеративного IE и оценивают производительность многочисленных представительных подходов в различных сценариях, чтобы лучше понять их потенциал и ограничения. Как отмечают исследователи, этот обзор генеративного IE с LLM является первым в своем роде.
Статья предлагает четыре стратегии рассуждения NER, имитирующие возможности ChatGPT по нулевому NER, и учитывает превосходные рассуждения LLM. Некоторые исследования по LLM для RE показали, что few-shot prompting с GPT-3 позволяет достичь производительности, близкой к SOTA, и что генерируемые GPT-3 цепочки рассуждений могут улучшить Flan-T5. К сожалению, ChatGPT все еще не очень хорошо справляется с задачами EE, потому что они требуют сложных инструкций и неустойчивы. Подобным образом, другие исследователи одновременно оценивают различные подзадачи IE, чтобы провести более тщательную оценку LLM. Хотя ChatGPT довольно хорошо справляется в среде OpenIE, он обычно уступает моделям на основе BERT в обычной среде IE, согласно исследователям. Кроме того, подход soft-matching показывает, что “неаннотированные спаны” являются наиболее распространенным видом ошибок, привлекая внимание к возможным проблемам с качеством аннотации данных и позволяя провести более точную оценку.
Подходы генеративного IE и бенчмарки прошлого обычно специализированы по домену или задаче, что делает их менее применимыми в реальных сценариях. Было предложено несколько новых методов унифицированных техник, использующих LLM. Однако у этих методов все еще есть значительные ограничения, такие как расширенный входной контекст и структурированный вывод, которые не согласованы. Поэтому исследователи считают, что необходимо более глубоко изучить контекстное обучение LLM, особенно в отношении улучшения процесса выбора примеров и создания универсальных фреймворков IE, способных гибко адаптироваться к различным доменам и деятельностям. Они считают, что будущие исследования должны сосредоточиться на создании сильных методов кросс-доменного обучения, таких как адаптация домена и обучение многозадачное, чтобы максимально использовать домены, богатые ресурсами. Также важно исследовать эффективные системы аннотации данных, использующие LLM.
Еще одним важным аспектом является улучшение подсказки для того, чтобы модель лучше понимала и рассуждала (например, Chain-of-Thought); это можно достичь, заставляя LLM делать логические выводы или генерировать объяснимый вывод. Еще одним направлением, которое могут исследовать ученые, является интерактивное проектирование подсказок (например, многоходовая QA); в такой настройке LLM автоматически уточняет или предлагает обратную связь по извлеченным данным итеративным образом.
Если вам нужны рекомендации по управлению ИИ в бизнесе, свяжитесь с нами по адресу hello@itinai.com. Чтобы быть в курсе последних новостей об ИИ, подписывайтесь на наш Telegram-канал t.me/itinairu.
Посмотрите на практический пример решения на основе ИИ: бот для продаж от itinai.ru/aisales, созданный для автоматизации общения с клиентами круглосуточно и управления взаимодействием на всех этапах пути клиента.
Изучите, как искусственный интеллект может улучшить ваши продажи и общение с клиентами. Познакомьтесь с нашими решениями на сайте itinai.ru